Press "Enter" to skip to content

来自UCLA和Google的研究人员提出了AVIS:一种突破性的人工智能框架,用于自主信息搜索和视觉问答

来自UCLA和Google的研究人员提出了AVIS:一种突破性的人工智能框架,用于自主信息搜索和视觉问答 四海 第1张来自UCLA和Google的研究人员提出了AVIS:一种突破性的人工智能框架,用于自主信息搜索和视觉问答 四海 第2张

GPT3、LaMDA、PALM、BLOOM和LLaMA只是一些大型语言模型(LLMs)的例子,它们展示了存储和应用大量信息的能力。它们展示了新的技能,如上下文学习、代码创作和常识推理。最近的一个发展是训练LLMs同时处理视觉和语言数据。GPT4、Flamingo和PALI是三个著名的视觉语言模型(VLMs)的例子。它们在许多任务上建立了新的基准,包括图片标题生成、视觉问答和开放词汇识别。虽然最先进的LLMs在涉及文本信息检索的任务上表现远远优于人类,但最先进的VLMs在Infoseek、Oven和OK-VQA等视觉信息检索数据集上表现较差。

由于多种原因,当今最先进的视觉语言模型(VLMs)很难对这类查询做出令人满意的回答。首先,需要教导年轻人识别图像中的细粒度类别和细节。其次,它们的推理必须更加强大,因为它们使用的语言模型比最先进的大型语言模型(LLMs)要小。最后,与图像搜索引擎不同,它们没有将查询图像与带有不同元数据的大量图像语料库进行比对。在这项研究中,来自加州大学洛杉矶分校(UCLA)和谷歌的研究人员提供了一种新方法来克服这些障碍,通过将LLMs与三种不同类型的工具相结合,实现了在视觉信息检索任务上的最先进性能。

  • 辅助视觉信息提取的计算机程序包括对象检测器、光学字符识别软件、图片标题生成模型和视觉质量评估软件。
  • 发现外部世界数据和信息的在线资源
  • 通过挖掘与视觉相关的图像的元数据,找到图像搜索中的相关结果的方法。

该方法采用由LLM驱动的规划器来决定使用哪种工具以及向其发送什么查询。此外,研究人员使用由LLM驱动的推理器来检查工具的结果并提取相关数据。

首先,LLM将查询简化为策略、程序或一组指令。之后,激活适当的API来收集数据。虽然在简单的视觉语言挑战中有所希望,但在更复杂的现实场景中,这种方法通常需要进行修订。这样的初始查询无法确定一个全面的策略。相反,它需要根据持续的数据进行持续迭代。流动决策能力是所提出策略的关键创新。由于任务的复杂性,对于需要视觉信息的问题,规划器必须进行多步骤的规划过程。规划器必须决定在每个阶段使用哪个API以及提交什么查询。它只能预测像图像搜索这样的复杂API的答案的效用,或者在调用它们后预测它们的输出。因此,研究人员选择了一种动态策略,而不是传统的方法,包括对流程阶段和API调用进行预先规划。

研究人员进行了一项用户研究,以更好地了解人们在与API交互以查找视觉信息时如何做出选择。为了使大型语言模型(LLM)能够在选择API和构建查询时做出明智的选择,他们将这些信息编制成一个系统框架。从收集到的用户数据中,系统有两种主要的受益方式。首先,他们通过推断用户动作的顺序来构建一个转换图。该图定义了状态之间的边界以及每个状态可以采取的步骤。其次,他们为规划器和推理器提供了有用的用户决策示例。

主要贡献

  • 团队提出了一种创新的视觉问答框架,使用大型语言模型(LLM)来制定使用外部工具的策略并调查其输出,从而学习提供答案所需的知识。
  • 团队利用用户研究结果,创建了一个系统化的计划。该框架指导大型语言模型(LLM)在选择API和构建查询时模拟人类决策。
  • 该策略在Infoseek和OK-VQA这两个基于知识的视觉问答基准上优于最先进的解决方案。特别是,与PALI在Infoseek(未知实体分割)数据集上的16.0%准确率相比,我们的结果显著提高,达到50.7%。

APIs和其他工具

AVIS(自主视觉信息查询与大型语言模型)需要一套强大的资源来回答需要适当深入信息检索的视觉查询。

  • 图像字幕模型
  • 视觉问答模型
  • 物体检测
  • 图像搜索
  • OCR
  • 网络搜索
  • LLM短问答

限制

目前,AVIS的主要功能是为问题提供视觉回答。研究人员计划扩大基于LLM的动态决策系统的范围,以整合其他推理应用。当前框架还需要PALM模型,这是一个计算复杂的LLM。他们想要确定是否可以使用更小、计算负荷较轻的语言模型做出同样的决策。

总之,加州大学洛杉矶分校和谷歌的研究人员提出了一种新方法,使大型语言模型(LLM)能够访问广泛的资源来处理面向视觉的知识查询。该方法基于对人类决策制定的用户研究数据。它使用一个结构化框架,其中由LLM驱动的规划器选择要使用的工具以及如何即时构建查询。所选工具的输出将被处理,由9个LLM驱动的推理器将提取关键信息。视觉问题被分解成较小的部分,并且规划器和推理器共同使用各种工具来解决每个部分,直到积累足够的数据来回答问题。

Leave a Reply

Your email address will not be published. Required fields are marked *