Multimodal Learning

由Google研究团队的学生研究员Ziniu Hu和研究科学家Alireza Fathi发布针对多模态输入的大型语言模型（LLMs）适应性方面，如图像字幕、视觉问答（VQA）和开放词汇识别等任务取得了巨大进展。尽管取得了这样的成就，但当前最先进的视觉语言模型（VLMs）在信息查询数据集（如Infoseek和OK-VQA）上的性能表现不佳，这些数据集需要外部知识来回答问题。需要外部知识回答问题的信息查询查询示例。图片来自OK-VQA数据集。在“AVIS：利用大型语言模型进行自主视觉信息查询”中，我们介绍了一种在视觉信息查询任务上取得最先进结果的新方法。我们的方法将LLMs与三种类型的工具集成在一起：（i）用于从图像中提取视觉信息的计算机视觉工具，（ii）用于检索开放世界知识和事实的网络搜索工具，以及（iii）用于从与视觉上相似的图像相关的元数据中获取相关信息的图像搜索工具。AVIS使用LLM驱动的规划器在每个步骤中选择工具和查询。它还使用LLM驱动的推理器分析工具输出并提取关键信息。一个工作记忆组件在整个过程中保留信息。回答复杂视觉信息查询问题时AVIS生成的工作流示例。输入图像来自Infoseek数据集。与以前的工作相比最近的研究（例如Chameleon、ViperGPT和MM-ReAct）探索了将工具添加到LLMs以进行多模态输入。这些系统遵循两阶段过程：规划（将问题分解为结构化程序或指令）和执行（使用工具收集信息）。尽管在基本任务中取得了成功，但这种方法在复杂的现实场景中常常失败。还出现了将LLMs应用为自主代理的兴趣激增（例如WebGPT和ReAct）。这些代理与环境互动，根据实时反馈进行调整，并实现目标。然而，这些方法不限制可以在每个阶段调用的工具，导致了巨大的搜索空间。因此，即使是当今最先进的LLMs也可能陷入无限循环或传播错误。AVIS通过人类决策的指导LLM使用来解决这个问题。通过用户研究指导LLM决策对于Infoseek和OK-VQA等数据集中的许多视觉问题，即使对于人类来说也是具有挑战性的，通常需要各种工具和API的帮助。下面是来自OK-VQA数据集的一个示例问题。我们进行了用户研究以了解使用外部工具时的人类决策过程。我们进行了一项用户研究，以了解在使用外部工具时的人类决策过程。图片来自于OK-VQA数据集。用户配备了与我们的方法相同的一套工具，包括PALI、PaLM和网络搜索。他们收到输入图片、问题、检测到的物体裁剪图以及链接到图像搜索结果的按钮。这些按钮提供了关于检测到的物体裁剪图的多样信息，例如知识图谱实体、相似图像标题、相关产品标题和相同的图像标题。我们记录用户的行为和输出，并将其用作我们系统的指导，有两个关键方面。首先，通过分析用户所做决策的顺序，我们构建了一个转换图（如下所示）。该图定义了不同的状态，并限制了每个状态下可用的行动集合。例如，在初始状态下，系统只能执行以下三个动作之一：PALI标题、PALI VQA或者物体检测。其次，我们使用人类决策的例子来指导我们的规划器和推理器，提供相关的上下文实例，以增强我们系统的性能和效果。 AVIS转换图。总体框架我们的方法采用一种动态的决策策略，旨在响应视觉信息查询。我们的系统有三个主要组件。首先，我们有一个规划器，用于确定下一步的行动，包括适当的API调用和需要处理的查询。其次，我们有一个工作内存，用于保存从API执行获得的结果的信息。最后，我们有一个推理器，其作用是处理API调用的输出。它确定获得的信息是否足以产生最终的响应，或者是否需要进行额外的数据检索。规划器在每次需要决策哪个工具要使用和发送给它的查询时，执行一系列步骤。基于当前状态，规划器提供一系列可能的后续行动。可能的行动空间可能非常大，使得搜索空间难以处理。为了解决这个问题，规划器参考转换图来排除不相关的行动。规划器还排除了之前已经执行过并存储在工作内存中的行动。接下来，规划器收集一组相关的上下文示例，这些示例是从用户研究中先前由人类做出的决策中组合而成的。利用这些示例和保存有从过去工具交互中收集的数据的工作内存，规划器制定一个提示。然后将该提示发送给LLM，LLM返回一个结构化的答案，确定下一个要激活的工具和要发送给它的查询。这种设计允许规划器在整个过程中被多次调用，从而促进逐步回答输入查询的动态决策。我们使用推理器分析工具执行的输出，提取有用的信息，并决定工具输出属于哪个类别：信息性的、无信息的或最终答案。我们的方法利用LLM进行推理，适当的提示和上下文示例。如果推理器得出结论准备提供答案，它将输出最终响应，从而完成任务。如果它确定工具输出无信息，它将返回给规划器，在当前状态下选择另一个行动。如果它发现工具输出有用，它将修改状态并将控制权转交回规划器，在新状态下做出新决策。 AVIS采用动态决策策略来响应视觉信息查询。结果我们在Infoseek和OK-VQA数据集上评估了AVIS。如下所示，即使是强大的视觉语言模型，如OFA和PaLI，在Infoseek上进行微调后也无法获得高准确性。我们的方法（AVIS）在没有进行微调的情况下，在该数据集的未知实体拆分上实现了50.7%的准确性。…

Leave a Comment

由Google Research的研究科学家Arsha Nagrani和Paul Hongsuck Seo发布自动语音识别（ASR）是一项成熟的技术，广泛用于各种应用，例如电话会议、流媒体视频转录和语音命令。尽管该技术的挑战集中在嘈杂的音频输入方面，但多模式视频（例如电视，在线编辑视频）中的视觉流可以为提高ASR系统的鲁棒性提供有力的线索，这就是所谓的视听ASR（AV-ASR）。尽管唇部运动可以为语音识别提供强烈信号并且是AV-ASR最常关注的领域，但是在野外视频中口部通常不直接可见（例如由于自我中心的视角，面部覆盖和低分辨率），因此，一种新兴的研究领域是不受限制的AV-ASR（例如AVATAR），它调查整个视觉框架的贡献，而不仅仅是口部区域。然而，为训练AV-ASR模型构建视听数据集是具有挑战性的。虽然已经从在线教学视频中创建了How2和VisSpeech等数据集，但它们的规模很小。相比之下，模型本身通常是大型的，包含视觉和音频编码器，因此它们往往会在这些小型数据集上过度拟合。尽管如此，最近发布了许多经过大规模培训的仅音频模型，这些模型通过从类似于LibriLight和LibriSpeech的有声书籍中获得的大规模音频数据进行大规模培训而被大量优化。这些模型包含数十亿个参数，易于获得，并在跨域方面显示出强大的泛化能力。考虑到以上挑战，“AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot AV-ASR”中，我们提出了一种简单的方法，可在现有的大型仅音频模型中注入视觉信息，同时进行轻量级域适应。AVFormer使用轻量级可训练的适配器将视觉嵌入注入到冻结的ASR模型中（类似于Flamingo将视觉信息注入大型语言模型以进行视觉文本任务），这些适配器可以在少量弱标记的视频数据上进行训练，最小化额外的训练时间和参数。我们还介绍了一个简单的培训课程方案，我们证明它对于使模型有效地联合处理音频和视觉信息至关重要。由此产生的AVFormer模型在三个不同的AV-ASR基准测试（How2，VisSpeech和Ego4D）上实现了最先进的零样本性能，同时关键保持传统仅音频语音识别基准测试的良好性能（即，LibriSpeech）。无限制的视听语音识别。我们通过轻量级模块将视觉注入冻结的语音模型（BEST-RQ，灰色）中，以实现零样本视听ASR，创建一个参数和数据效率模型，称为AVFormer（蓝色）。当音频信号嘈杂时，视觉背景可以为稳健的语音识别提供有帮助的线索（视觉面包帮助将“丁香”这个音频错误更正为“面包”在生成的转录文本中）。使用轻量级模块注入视觉信息我们的目标是在现有的仅音频ASR模型中添加视觉理解能力，同时保持其对各种领域（AV和仅音频领域）的泛化性能。为此，我们使用以下两个组件增强现有的最先进的ASR模型（Best-RQ）：（i）线性视觉投影仪和（ii）轻量级适配器。前者将视觉特征投射到音频标记嵌入空间中。此过程允许模型正确连接分别预训练的视觉特征和音频输入标记表示。然后，后者最小化修改模型以增加对来自视频的多模态输入的理解。然后，我们使用HowTo100M数据集中未标记的Web视频以及ASR模型的输出作为伪地面真实性对这些附加模块进行培训，同时保持Best-RQ模型的冻结状态。这样的轻量级模块使数据效率和性能强的泛化成为可能。我们在零-shot的情况下对AV-ASR基准模型进行了扩展模型的评估，其中该模型从未在手动标注的AV-ASR数据集上进行过训练。用于视觉注入的课程学习在初始评估之后，我们经过实验证明，采用单一的联合训练轮次，模型难以同时学习适配器和视觉投影器。为了缓解这个问题，我们引入了一种分阶段课程学习策略，将这两个因素——领域自适应和视觉特征集成——解耦，并按顺序训练网络。在第一阶段，适配器参数在不提供视觉令牌的情况下进行优化。一旦适配器训练完成，我们加入视觉令牌，并在第二阶段中仅训练可视化投影层，同时保持训练好的适配器冻结。…

Tag: Multimodal Learning

使用大型语言模型进行自主视觉信息获取

AVFormer：为零-shot AV-ASR注入视觉