Press "Enter" to skip to content

6 search results for "MiniGPT-4"

这项来自中国的人工智能研究介绍了“啄木鸟”:一种创新的人工智能框架,旨在纠正多模态大型语言模型(MLLMs)中的幻觉

中国的研究人员引入了一种名为Woodpecker的新型AI校正框架,以解决多模态大型语言模型(MLLMs)中的错觉问题。这些模型结合了文本和图像处理,经常生成不准确反映所提供图像内容的文本描述。这种不准确性被归类为物体级错觉(涉及不存在的物体)和属性级错觉(对物体属性的不准确描述)。 目前减轻错觉的方法通常涉及使用特定数据对MLLM进行重新训练。这些基于指令的方法可能需要大量数据和计算资源。相比之下,Woodpecker提供了一种无需训练的替代方案,可应用于各种MLLM,通过其校正过程的不同阶段增强可解释性。 Woodpecker由五个关键阶段组成: 1.关键概念提取:该阶段识别所生成文本中提到的主要对象。 2.问题制定:围绕提取出的对象提出问题以诊断错觉。 3.视觉知识验证:使用专家模型回答这些问题,例如物体检测用于物体级查询,视觉问答(VQA)模型用于属性级问题。 4.视觉索赔生成:问题-答案对被转化为结构化视觉知识库,包括物体级和属性级索赔。 5.错觉校正:利用视觉知识库,系统引导MLLM修改所生成文本中的错觉,并附加边界框以确保清晰和可解释性。 该框架强调透明度和可解释性,使其成为理解和校正MLLM中失真的有价值工具。 研究人员在三个基准数据集(POPE、MME和LLaVA-QA90)上评估了Woodpecker。在POPE基准测试中,Woodpecker在基线模型MiniGPT-4和mPLUG-Owl上显著提高了准确性,分别实现了30.66%和24.33%的准确性改善。该框架在不同设置(包括随机、流行和对抗性场景)中表现出一致性。 在MME基准测试中,Woodpecker显示出显著的改进,特别是在与计数相关的查询中,它的表现超过了MiniGPT-4 101.66个得分。对于属性级查询,Woodpecker提高了基线模型的性能,有效解决了属性级错觉。 在LLaVA-QA90数据集中,Woodpecker一直提高了准确性和详细性指标,表明其能够校正MLLM生成的响应中的错觉,并丰富描述内容。 总之,Woodpecker框架为解决多模态大型语言模型中的错觉提供了一种有希望的校正方法。它通过关注解释和校正而不是重新训练,为提高MLLM生成描述的可靠性和准确性提供了有价值的工具,并有潜在的在涉及文本和图像处理的各种应用中带来好处。

Leave a Comment

从专家到通用助手:深入探讨视觉与语言中多模态基础模型的演变

计算机视觉社区面临着各种各样的挑战。在预训练时代,许多研讨会论文讨论了建立多功能视觉工具的全面框架,用以引入多样化的视觉工具。在这个时期占主导地位的方法是在大量相关问题的数据上进行预训练,然后将其转移到与同一问题类型相关的各种实际场景中,通常使用零或少样本技术。 最近微软的一项研究深入探究了具有视觉和视觉语言功能的多模态基础模型的历史和发展,特别强调了从专门化助手到通用助手的转变。 根据他们的论文,主要讨论了三种初始策略的主要类别: 标签监督:标签监督使用先前标记的示例来训练模型。使用ImageNet和类似的数据集已经证明了这种方法的有效性。我们可以从互联网、图像和人工创建的标签中获得大量的嘈杂数据集。 也被称为“语言监督”,这种策略使用无监督的文本信号,最常见的是图像-文字对。CLIP和ALIGN是使用对比损失比较图像-文字对的预训练模型的例子。 仅使用图像作为监督信号的图像自监督学习:这种技术完全依赖视觉图像作为监督信号的来源。遮挡图像建模、非对比和对比学习都是可行的选择。 研究人员研究了几种用于视觉理解的方法,例如用于图像标注、视觉问答、基于区域的预训练用于引接和基于像素的预训练用于分割等,可以整合以获得最佳结果。 多模态基础模型 理解和解释以多种模态呈现的数据,如文本和图像,是多模态基础模型的特点。它们使得可能进行各种任务,否则需要大量的数据收集和综合。重要的多模态概念框架包括以下几个: CLIP(对比语言-图像预训练)是一种开创性的技术,用于发现共同的图像和文本嵌入空间。它可以进行图像-文本检索和零射击分类等任务。 BEiT(视觉中的BERT)将BERT的遮挡图像建模技术应用于视觉领域。可以预测遮挡图像中的令牌,使图像转化器能够进行其他任务。 CoCa(对比和字幕预训练)将对比学习与字幕损失相结合,用于对图像编码器进行预训练。多模态任务的完成现在成为可能,得益于释义图像字幕系统。 UniCL(统一对比学习)通过将CLIP的对比学习扩展到图像标签数据,实现了图像-文字和图像-标签对的统一对比预训练。 MVP(遮挡图像建模视觉预训练)是一种使用遮挡图像和高层特征目标进行预训练的视觉转换器方法。 为了提高MIM的精度,EVA(利用视觉-文本对齐)使用来自CLIP等模型的图像特征作为目标特征。 BEiTv2在BEiT的基础上改进,通过引入像DINO一样的自蒸馏损失来促进全局视觉表示的学习。 这些多模态基础模型极大地提高了计算机视觉和自然语言处理应用中的模型解释和处理能力。 他们的研究进一步探讨了“视觉生成”,发现文本到图像生成模型一直是图片合成的基础。这些模型已成功扩展,以允许更精细的用户控制和定制。与问题相关的大量数据的可用性和生成是实施这些多模态基础模型的关键因素。 T2I生成简介T2I生成试图提供与文本描述相对应的视觉效果。这些模型通常在图像和文本对上进行训练,其中文本提供输入条件,照片则作为所需的输出。 本书从稳定的扩散(SD)示例中解释了T2I模型。由于其基于交叉关注的图像-文本融合和基于扩散的生成方法,SD是一种备受喜爱的开源T2I模型。 稳定扩散的主要组成部分有三个:去噪统一神经网络(U-Net)、文本编码器和图像变分自动编码器(VAE)。VAE对图像进行编码,TEN对文本条件进行编码,Denoising U-Net在潜在空间中预测噪声以生成新的图像。 探讨提高T2I生成中的空间可控性,其中一种方法是允许在文本之外输入更多的空间条件,例如区域相关的文本描述、分割蒙版和关键点等密集空间要求。它探讨了ControlNet等T2I模型如何使用分割蒙版和边缘图等详尽限制来管理成像生成过程。 介绍了基于文本的编辑模型的最新发展;这些模型可以根据文本指令来修改照片,消除了用户生成蒙版的需要。通过对齐调整,T2I模型可以更好地遵循文本提示,类似于如何训练语言模型以改进文本生成。讨论了可能的解决方案,包括基于强化学习的解决方案。 随着文中提到的集成对齐解决方案的T2I模型日益受到欢迎,未来不再需要独立的图像和文本模型。在这项研究中,团队提出了一种统一的T2I模型输入界面,可以同时输入图像和文本,以辅助空间控制、编辑和概念定制等任务。…

Leave a Comment

认识一下Cheetor:一种基于Transformer的多模态大型语言模型(MLLMs),它能够有效处理各种交织的视觉语言指令,并实现最先进的零样本性能

通过以教学风格对语言任务组进行指导调优,大型语言模型(LLMs)最近展示了出色的多样化活动通用模型的能力。指导调优通过在单一指导-回应格式中微调各种任务,为LLMs在新任务指令上实现了大量的零-shot泛化能力。由于在众多实际应用中具有长期的目标,这一结果引发了对将纯文本指令跟随模型扩展到多模态模型的新一轮研究热潮。为了实现这个目的,Flamingo和BLIP-2为LLMs提供了冻结的视觉编码器以理解视觉输入。通过对多模态指导跟随数据集进行微调,LLaVA、MiniGPT-4和InstructBLIP进一步增强了模型的指令跟随能力。 由于多模态大型语言模型(MLLMs)主要集中在仅包含单张图片作为视觉背景并且指令多样性有限的视觉-语言指令上,这些指令跟随助手的可用性受到了限制。相比之下,人们在现实生活中通常通过一系列相关的信息和视觉元素来表达他们的需求。例如,人们可能需要模型参考多个来源的多模态知识(如视觉吸引人的网站、教科书和课堂幻灯片)来回答开放领域的问题。这些多个参考和查询所代表的是交错的视觉-语言指令,其中包含了多个语义相关的图片和文本。 来自浙江大学、新加坡国立大学和南洋理工大学的研究人员开发了I4(语义互连、交错的图像-文本指令跟随),这是一个包含31个任务的大规模基准测试,涵盖了20个不同场景,以帮助研究交错的视觉-语言指令跟随。I4具有三个关键特点:(1)指令由相互关联的图片和文字序列组成,例如带有脚本的故事板和带有图表的教科书。这被称为交错的视觉语言上下文。(2)有很多复杂的指令,任务范围从对话式的实体活动到识别监控照片中的差异到预测漫画的对话。(3)该基准测试涵盖了各种指令跟随场景,包括卡通、商业图像、驾驶镜头、食谱指令等。他们利用建议的基准测试系统地评估了现有的MLLMs,并发现它们需要帮助来执行如此复杂的多模态指令。他们认为视觉提示生成器(VPG)对于MLLMs理解复杂指令至关重要,尽管现有的MLLMs主要集中在构建更多样化和高质量的指导调优数据的复杂方法上。现有方法提出了几种VPGs(如线性投影、重采样器和Q-former),以从包含在视觉骨干(如ViT)中的丰富图片信息中提取相关的视觉线索,以调整LLMs以理解视觉输入。 通过挑战冻结的LLM,在视觉线索的条件下生成标题,他们训练了VPG与数百万个图像-标题配对。尽管高效,网络爬取的标题通常只描述图像的一小部分前景。因此,由于只教授提取典型标题的显而易见信息,VPG可能无法提取某些活动所需的精确信息。此外,在I4中,由于任务要求VPG关注上下文中其他图像的特定视觉细节(例如传达两张照片之间的微小差异),这个问题变得更加严重。 他们提出了一个轻量级的可控知识再注入(CLORI)模块,利用LLMs的复杂推理能力来控制VPG(即Q-former),以重新提取与指令特定语义有关的缺失视觉信息,以解决现有MLLMs中VPG的关键问题。更具体地说,他们使用Q-former提供与任务无关的视觉线索,为LLM提供关于图片的重要信息。他们首先从语言模型中构建指令特定条件来控制Q-former,并有条件地从图片中提取特定的信息。然后将这些条件带入LLM中。通过使用内部交叉注意力图,他们首先确定Q-former在图片中主要忽略的区域。然后,他们使用ChatGPT和SAM来识别编辑目标并生成正确的编辑描述。接下来,根据编辑指令对原始图像进行局部调整,使用混合扩散生成对抗性图像。然后,开发了一个图像间的区别判别预训练任务,描述了创建的对抗性图像与原始图像之间的微小差异。由于修改的位被选自最被忽视的位置,CLORI模块必须基于对抗性图像和任务指令提取缺失的视觉信息。 他们建议使用Cheetor,这是一个基于Transformer的多模态语言理解模型,通过可调的知识重新注入,能够成功地从各种复杂的视觉语言指令中创建整体语义。轻量级的CLORI模块可以使用少于100万个图像-文本配对的CAGIT技术进行高效调优。在单个A100 GPU上,只需几个小时即可完成,无需庞大的多模态指令调优数据。与以往的多模态语言理解模型相比,他们的模型在具有挑战性的I4基准测试中表现更好,并且计算和数据效率更高。此外,他们还使用MME基准测试评估了Cheetor,模型表现出色。 他们的贡献总结如下:(1) 他们构建了I4,一个包含31个挑战的全面的交叉视觉-语言指令基准测试,涵盖了各种真实世界的场景。(2) 他们提供了一个最小控制的知识重新注入(CLORI)模块,针对LLM生成的情况,将指令特定的视觉信息补充重新注入到LLM中。(3) 仅使用30k张图片,他们成功地教会了CLORI模块,使用了交叉注意力引导的反事实图像训练技术。(4) 他们的Cheetor在具有挑战性的I4测试中取得了最先进的性能,只需7个A100 GPU小时,即使没有高质量的多模态指令调优数据。

Leave a Comment

Can't find what you're looking for? Try refining your search: