7458 search results for "t"

使用大型语言模型进行自主视觉信息获取

Published August 30, 2023 by 四海吧

由Google研究团队的学生研究员Ziniu Hu和研究科学家Alireza Fathi发布针对多模态输入的大型语言模型（LLMs）适应性方面，如图像字幕、视觉问答（VQA）和开放词汇识别等任务取得了巨大进展。尽管取得了这样的成就，但当前最先进的视觉语言模型（VLMs）在信息查询数据集（如Infoseek和OK-VQA）上的性能表现不佳，这些数据集需要外部知识来回答问题。需要外部知识回答问题的信息查询查询示例。图片来自OK-VQA数据集。在“AVIS：利用大型语言模型进行自主视觉信息查询”中，我们介绍了一种在视觉信息查询任务上取得最先进结果的新方法。我们的方法将LLMs与三种类型的工具集成在一起：（i）用于从图像中提取视觉信息的计算机视觉工具，（ii）用于检索开放世界知识和事实的网络搜索工具，以及（iii）用于从与视觉上相似的图像相关的元数据中获取相关信息的图像搜索工具。AVIS使用LLM驱动的规划器在每个步骤中选择工具和查询。它还使用LLM驱动的推理器分析工具输出并提取关键信息。一个工作记忆组件在整个过程中保留信息。回答复杂视觉信息查询问题时AVIS生成的工作流示例。输入图像来自Infoseek数据集。与以前的工作相比最近的研究（例如Chameleon、ViperGPT和MM-ReAct）探索了将工具添加到LLMs以进行多模态输入。这些系统遵循两阶段过程：规划（将问题分解为结构化程序或指令）和执行（使用工具收集信息）。尽管在基本任务中取得了成功，但这种方法在复杂的现实场景中常常失败。还出现了将LLMs应用为自主代理的兴趣激增（例如WebGPT和ReAct）。这些代理与环境互动，根据实时反馈进行调整，并实现目标。然而，这些方法不限制可以在每个阶段调用的工具，导致了巨大的搜索空间。因此，即使是当今最先进的LLMs也可能陷入无限循环或传播错误。AVIS通过人类决策的指导LLM使用来解决这个问题。通过用户研究指导LLM决策对于Infoseek和OK-VQA等数据集中的许多视觉问题，即使对于人类来说也是具有挑战性的，通常需要各种工具和API的帮助。下面是来自OK-VQA数据集的一个示例问题。我们进行了用户研究以了解使用外部工具时的人类决策过程。我们进行了一项用户研究，以了解在使用外部工具时的人类决策过程。图片来自于OK-VQA数据集。用户配备了与我们的方法相同的一套工具，包括PALI、PaLM和网络搜索。他们收到输入图片、问题、检测到的物体裁剪图以及链接到图像搜索结果的按钮。这些按钮提供了关于检测到的物体裁剪图的多样信息，例如知识图谱实体、相似图像标题、相关产品标题和相同的图像标题。我们记录用户的行为和输出，并将其用作我们系统的指导，有两个关键方面。首先，通过分析用户所做决策的顺序，我们构建了一个转换图（如下所示）。该图定义了不同的状态，并限制了每个状态下可用的行动集合。例如，在初始状态下，系统只能执行以下三个动作之一：PALI标题、PALI VQA或者物体检测。其次，我们使用人类决策的例子来指导我们的规划器和推理器，提供相关的上下文实例，以增强我们系统的性能和效果。 AVIS转换图。总体框架我们的方法采用一种动态的决策策略，旨在响应视觉信息查询。我们的系统有三个主要组件。首先，我们有一个规划器，用于确定下一步的行动，包括适当的API调用和需要处理的查询。其次，我们有一个工作内存，用于保存从API执行获得的结果的信息。最后，我们有一个推理器，其作用是处理API调用的输出。它确定获得的信息是否足以产生最终的响应，或者是否需要进行额外的数据检索。规划器在每次需要决策哪个工具要使用和发送给它的查询时，执行一系列步骤。基于当前状态，规划器提供一系列可能的后续行动。可能的行动空间可能非常大，使得搜索空间难以处理。为了解决这个问题，规划器参考转换图来排除不相关的行动。规划器还排除了之前已经执行过并存储在工作内存中的行动。接下来，规划器收集一组相关的上下文示例，这些示例是从用户研究中先前由人类做出的决策中组合而成的。利用这些示例和保存有从过去工具交互中收集的数据的工作内存，规划器制定一个提示。然后将该提示发送给LLM，LLM返回一个结构化的答案，确定下一个要激活的工具和要发送给它的查询。这种设计允许规划器在整个过程中被多次调用，从而促进逐步回答输入查询的动态决策。我们使用推理器分析工具执行的输出，提取有用的信息，并决定工具输出属于哪个类别：信息性的、无信息的或最终答案。我们的方法利用LLM进行推理，适当的提示和上下文示例。如果推理器得出结论准备提供答案，它将输出最终响应，从而完成任务。如果它确定工具输出无信息，它将返回给规划器，在当前状态下选择另一个行动。如果它发现工具输出有用，它将修改状态并将控制权转交回规划器，在新状态下做出新决策。 AVIS采用动态决策策略来响应视觉信息查询。结果我们在Infoseek和OK-VQA数据集上评估了AVIS。如下所示，即使是强大的视觉语言模型，如OFA和PaLI，在Infoseek上进行微调后也无法获得高准确性。我们的方法（AVIS）在没有进行微调的情况下，在该数据集的未知实体拆分上实现了50.7%的准确性。…