来自UCLA和Google的研究人员提出了AVIS：一种突破性的人工智能框架，用于自主信息搜索和视觉问答

来自UCLA和Google的研究人员提出了AVIS：一种突破性的人工智能框架，用于自主信息搜索和视觉问答四海第1张

GPT3、LaMDA、PALM、BLOOM和LLaMA只是一些大型语言模型（LLMs）的例子，它们展示了存储和应用大量信息的能力。它们展示了新的技能，如上下文学习、代码创作和常识推理。最近的一个发展是训练LLMs同时处理视觉和语言数据。GPT4、Flamingo和PALI是三个著名的视觉语言模型（VLMs）的例子。它们在许多任务上建立了新的基准，包括图片标题生成、视觉问答和开放词汇识别。虽然最先进的LLMs在涉及文本信息检索的任务上表现远远优于人类，但最先进的VLMs在Infoseek、Oven和OK-VQA等视觉信息检索数据集上表现较差。

由于多种原因，当今最先进的视觉语言模型（VLMs）很难对这类查询做出令人满意的回答。首先，需要教导年轻人识别图像中的细粒度类别和细节。其次，它们的推理必须更加强大，因为它们使用的语言模型比最先进的大型语言模型（LLMs）要小。最后，与图像搜索引擎不同，它们没有将查询图像与带有不同元数据的大量图像语料库进行比对。在这项研究中，来自加州大学洛杉矶分校（UCLA）和谷歌的研究人员提供了一种新方法来克服这些障碍，通过将LLMs与三种不同类型的工具相结合，实现了在视觉信息检索任务上的最先进性能。

辅助视觉信息提取的计算机程序包括对象检测器、光学字符识别软件、图片标题生成模型和视觉质量评估软件。
发现外部世界数据和信息的在线资源
通过挖掘与视觉相关的图像的元数据，找到图像搜索中的相关结果的方法。

该方法采用由LLM驱动的规划器来决定使用哪种工具以及向其发送什么查询。此外，研究人员使用由LLM驱动的推理器来检查工具的结果并提取相关数据。

首先，LLM将查询简化为策略、程序或一组指令。之后，激活适当的API来收集数据。虽然在简单的视觉语言挑战中有所希望，但在更复杂的现实场景中，这种方法通常需要进行修订。这样的初始查询无法确定一个全面的策略。相反，它需要根据持续的数据进行持续迭代。流动决策能力是所提出策略的关键创新。由于任务的复杂性，对于需要视觉信息的问题，规划器必须进行多步骤的规划过程。规划器必须决定在每个阶段使用哪个API以及提交什么查询。它只能预测像图像搜索这样的复杂API的答案的效用，或者在调用它们后预测它们的输出。因此，研究人员选择了一种动态策略，而不是传统的方法，包括对流程阶段和API调用进行预先规划。

研究人员进行了一项用户研究，以更好地了解人们在与API交互以查找视觉信息时如何做出选择。为了使大型语言模型（LLM）能够在选择API和构建查询时做出明智的选择，他们将这些信息编制成一个系统框架。从收集到的用户数据中，系统有两种主要的受益方式。首先，他们通过推断用户动作的顺序来构建一个转换图。该图定义了状态之间的边界以及每个状态可以采取的步骤。其次，他们为规划器和推理器提供了有用的用户决策示例。

主要贡献

团队提出了一种创新的视觉问答框架，使用大型语言模型（LLM）来制定使用外部工具的策略并调查其输出，从而学习提供答案所需的知识。
团队利用用户研究结果，创建了一个系统化的计划。该框架指导大型语言模型（LLM）在选择API和构建查询时模拟人类决策。
该策略在Infoseek和OK-VQA这两个基于知识的视觉问答基准上优于最先进的解决方案。特别是，与PALI在Infoseek（未知实体分割）数据集上的16.0%准确率相比，我们的结果显著提高，达到50.7%。

APIs和其他工具

AVIS（自主视觉信息查询与大型语言模型）需要一套强大的资源来回答需要适当深入信息检索的视觉查询。

图像字幕模型
视觉问答模型
物体检测
图像搜索
OCR
网络搜索
LLM短问答

限制

目前，AVIS的主要功能是为问题提供视觉回答。研究人员计划扩大基于LLM的动态决策系统的范围，以整合其他推理应用。当前框架还需要PALM模型，这是一个计算复杂的LLM。他们想要确定是否可以使用更小、计算负荷较轻的语言模型做出同样的决策。

总之，加州大学洛杉矶分校和谷歌的研究人员提出了一种新方法，使大型语言模型（LLM）能够访问广泛的资源来处理面向视觉的知识查询。该方法基于对人类决策制定的用户研究数据。它使用一个结构化框架，其中由LLM驱动的规划器选择要使用的工具以及如何即时构建查询。所选工具的输出将被处理，由9个LLM驱动的推理器将提取关键信息。视觉问题被分解成较小的部分，并且规划器和推理器共同使用各种工具来解决每个部分，直到积累足够的数据来回答问题。