Press "Enter" to skip to content

认识一下Cheetor:一种基于Transformer的多模态大型语言模型(MLLMs),它能够有效处理各种交织的视觉语言指令,并实现最先进的零样本性能

认识一下Cheetor:一种基于Transformer的多模态大型语言模型(MLLMs),它能够有效处理各种交织的视觉语言指令,并实现最先进的零样本性能 四海 第1张认识一下Cheetor:一种基于Transformer的多模态大型语言模型(MLLMs),它能够有效处理各种交织的视觉语言指令,并实现最先进的零样本性能 四海 第2张

通过以教学风格对语言任务组进行指导调优,大型语言模型(LLMs)最近展示了出色的多样化活动通用模型的能力。指导调优通过在单一指导-回应格式中微调各种任务,为LLMs在新任务指令上实现了大量的零-shot泛化能力。由于在众多实际应用中具有长期的目标,这一结果引发了对将纯文本指令跟随模型扩展到多模态模型的新一轮研究热潮。为了实现这个目的,Flamingo和BLIP-2为LLMs提供了冻结的视觉编码器以理解视觉输入。通过对多模态指导跟随数据集进行微调,LLaVA、MiniGPT-4和InstructBLIP进一步增强了模型的指令跟随能力。

由于多模态大型语言模型(MLLMs)主要集中在仅包含单张图片作为视觉背景并且指令多样性有限的视觉-语言指令上,这些指令跟随助手的可用性受到了限制。相比之下,人们在现实生活中通常通过一系列相关的信息和视觉元素来表达他们的需求。例如,人们可能需要模型参考多个来源的多模态知识(如视觉吸引人的网站、教科书和课堂幻灯片)来回答开放领域的问题。这些多个参考和查询所代表的是交错的视觉-语言指令,其中包含了多个语义相关的图片和文本。

来自浙江大学、新加坡国立大学和南洋理工大学的研究人员开发了I4(语义互连、交错的图像-文本指令跟随),这是一个包含31个任务的大规模基准测试,涵盖了20个不同场景,以帮助研究交错的视觉-语言指令跟随。I4具有三个关键特点:(1)指令由相互关联的图片和文字序列组成,例如带有脚本的故事板和带有图表的教科书。这被称为交错的视觉语言上下文。(2)有很多复杂的指令,任务范围从对话式的实体活动到识别监控照片中的差异到预测漫画的对话。(3)该基准测试涵盖了各种指令跟随场景,包括卡通、商业图像、驾驶镜头、食谱指令等。他们利用建议的基准测试系统地评估了现有的MLLMs,并发现它们需要帮助来执行如此复杂的多模态指令。他们认为视觉提示生成器(VPG)对于MLLMs理解复杂指令至关重要,尽管现有的MLLMs主要集中在构建更多样化和高质量的指导调优数据的复杂方法上。现有方法提出了几种VPGs(如线性投影、重采样器和Q-former),以从包含在视觉骨干(如ViT)中的丰富图片信息中提取相关的视觉线索,以调整LLMs以理解视觉输入。

通过挑战冻结的LLM,在视觉线索的条件下生成标题,他们训练了VPG与数百万个图像-标题配对。尽管高效,网络爬取的标题通常只描述图像的一小部分前景。因此,由于只教授提取典型标题的显而易见信息,VPG可能无法提取某些活动所需的精确信息。此外,在I4中,由于任务要求VPG关注上下文中其他图像的特定视觉细节(例如传达两张照片之间的微小差异),这个问题变得更加严重。

他们提出了一个轻量级的可控知识再注入(CLORI)模块,利用LLMs的复杂推理能力来控制VPG(即Q-former),以重新提取与指令特定语义有关的缺失视觉信息,以解决现有MLLMs中VPG的关键问题。更具体地说,他们使用Q-former提供与任务无关的视觉线索,为LLM提供关于图片的重要信息。他们首先从语言模型中构建指令特定条件来控制Q-former,并有条件地从图片中提取特定的信息。然后将这些条件带入LLM中。通过使用内部交叉注意力图,他们首先确定Q-former在图片中主要忽略的区域。然后,他们使用ChatGPT和SAM来识别编辑目标并生成正确的编辑描述。接下来,根据编辑指令对原始图像进行局部调整,使用混合扩散生成对抗性图像。然后,开发了一个图像间的区别判别预训练任务,描述了创建的对抗性图像与原始图像之间的微小差异。由于修改的位被选自最被忽视的位置,CLORI模块必须基于对抗性图像和任务指令提取缺失的视觉信息。

他们建议使用Cheetor,这是一个基于Transformer的多模态语言理解模型,通过可调的知识重新注入,能够成功地从各种复杂的视觉语言指令中创建整体语义。轻量级的CLORI模块可以使用少于100万个图像-文本配对的CAGIT技术进行高效调优。在单个A100 GPU上,只需几个小时即可完成,无需庞大的多模态指令调优数据。与以往的多模态语言理解模型相比,他们的模型在具有挑战性的I4基准测试中表现更好,并且计算和数据效率更高。此外,他们还使用MME基准测试评估了Cheetor,模型表现出色。

他们的贡献总结如下:(1) 他们构建了I4,一个包含31个挑战的全面的交叉视觉-语言指令基准测试,涵盖了各种真实世界的场景。(2) 他们提供了一个最小控制的知识重新注入(CLORI)模块,针对LLM生成的情况,将指令特定的视觉信息补充重新注入到LLM中。(3) 仅使用30k张图片,他们成功地教会了CLORI模块,使用了交叉注意力引导的反事实图像训练技术。(4) 他们的Cheetor在具有挑战性的I4测试中取得了最先进的性能,只需7个A100 GPU小时,即使没有高质量的多模态指令调优数据。

Leave a Reply

Your email address will not be published. Required fields are marked *