Press "Enter" to skip to content

NTU和Microsoft研究人员提出了MIMIC-IT:一个大规模的多模态上下文中的指导调整数据集

NTU和Microsoft研究人员提出了MIMIC-IT:一个大规模的多模态上下文中的指导调整数据集 数据科学 第1张NTU和Microsoft研究人员提出了MIMIC-IT:一个大规模的多模态上下文中的指导调整数据集 数据科学 第2张

近年来,人工智能的发展集中在具有强大理解能力并能够行动的对话助手上。这些对话助手的显著成功可以归因于指令调整的实践,以及大型语言模型(LLMs)的高泛化能力。这意味着优化LLMs以适应由不同和优秀的指令描述的各种活动。通过包括指令调整,LLMs对用户意图有了更深入的理解,即使在新的未开发任务中也能提高它们的零-shot性能。

指令调整内部化了上下文,这在用户交互中是可取的,特别是当用户输入绕过明显的上下文时,这可能是零-shot速度提高的一个原因。对话助手在语言挑战方面取得了惊人的进步。然而,理想的非正式助手必须能够处理需要多种模态的任务。这需要一个广泛且顶尖的多模态指令跟随数据集。原始的图像语言指令跟随数据集称为LLaVAInstruct-150K或LLaVA。它是利用COCO图片、指令和基于项目边界框和图像描述的GPT-4的数据构建的。

LLaVA-Instruct-150K具有灵感,但它有三个缺点。 (1) 视觉多样性有限:因为数据集只使用COCO图片,所以其视觉多样性有限。 (2) 它使用单个图像作为可视输入,但是多模态对话助手应该能够处理多个照片甚至是长片。例如,当用户请求帮助为一组照片(或图像序列,如视频)命名时,系统需要正确响应。 (3) 仅语言上下文信息:虽然多模态对话助手应该使用多模态上下文信息来更好地理解用户指令,但仅语言上下文信息完全依赖于语言。

例如,如果人类用户提供所需功能的特定视觉样本,助手可以更好地将其对图像的描述与语气、风格或其他元素对齐。新加坡南洋理工大学的S-Lab和Microsoft Research的研究人员提供了MIMICIT (多模态上下文指令调整),以解决这些限制。MIMIC-IT具有多样化的视觉场景,包括不同数据集中的一般场景、自我中心视图场景和室内RGB-D图像的照片和视频。多个图像(或视频)用作可视数据,以支持各种图像或电影的指令-响应配对。多模态上下文信息包括在不同的指令-响应对、照片或视频中呈现的上下文数据 (有关数据格式的更多详细信息,请参见图1)。

他们提供了Sythus,一种受自我训练方法启发的自动化管道,用于有效地创建指令-响应配对。Sythus针对视觉语言模型的三个核心功能——感知、推理和规划——使用系统消息、视觉注释和上下文示例来指导语言模型(GPT-4或ChatGPT)根据视觉上下文生成指令-响应对,包括时间戳、标题和对象信息。指令和回复也被翻译成七种其他语言,以允许多语言使用。他们基于OpenFlamingo在MIMIC-IT上训练了一个名为Otter的多模态模型。

NTU和Microsoft研究人员提出了MIMIC-IT:一个大规模的多模态上下文中的指导调整数据集 数据科学 第3张
图1: MIMIC-IT与LLaVA-Instruct-150K数据格式比较。 (a) LLaVA-Instruct150K由单张图片和必要的上下文语言信息(黄框)组成。(b) MIMIC-IT提供多模态上下文信息,可以容纳多个图片或视频在输入数据中,即将视觉和语言输入都视为上下文信息。

Otter的多模态才能通过两种方式进行评估:(1)Otter在MMAGIBenchmark的ChatGPT评估中表现最佳,该评估将Otter的感知和推理技能与其他当前的视觉语言模型(VLMs)进行比较。(2)在多模态竞技场的人类评估中,Otter表现优于其他VLMs并获得最高的Elo分数。 Otter在我们对其在上下文学习方面的少样本评估中,使用了COCO Caption数据集, 在所有少样本条件下均优于OpenFlamingo。

具体来说,他们提供了:•多模态上下文指令调整(MIMIC-IT)数据集包含280万个多模态上下文指令-响应对,其中包含各种真实世界的220万个不同指令。 •Syphus是一个自动化流程,使用LLMs创建指令-响应对,可以根据视觉上下文生成高质量的多语言指令-响应对。 •Otter是一个多模态模型,展示了熟练的上下文学习和强大的多模态感知和推理能力,成功地遵循人类意图。

Leave a Reply

Your email address will not be published. Required fields are marked *