Press "Enter" to skip to content

这项来自中国的人工智能研究介绍了“啄木鸟”:一种创新的人工智能框架,旨在纠正多模态大型语言模型(MLLMs)中的幻觉

中国的研究人员引入了一种名为Woodpecker的新型AI校正框架,以解决多模态大型语言模型(MLLMs)中的错觉问题。这些模型结合了文本和图像处理,经常生成不准确反映所提供图像内容的文本描述。这种不准确性被归类为物体级错觉(涉及不存在的物体)和属性级错觉(对物体属性的不准确描述)。

目前减轻错觉的方法通常涉及使用特定数据对MLLM进行重新训练。这些基于指令的方法可能需要大量数据和计算资源。相比之下,Woodpecker提供了一种无需训练的替代方案,可应用于各种MLLM,通过其校正过程的不同阶段增强可解释性。

Woodpecker由五个关键阶段组成:

1.关键概念提取:该阶段识别所生成文本中提到的主要对象。

2.问题制定:围绕提取出的对象提出问题以诊断错觉。

3.视觉知识验证:使用专家模型回答这些问题,例如物体检测用于物体级查询,视觉问答(VQA)模型用于属性级问题。

4.视觉索赔生成:问题-答案对被转化为结构化视觉知识库,包括物体级和属性级索赔。

5.错觉校正:利用视觉知识库,系统引导MLLM修改所生成文本中的错觉,并附加边界框以确保清晰和可解释性。

该框架强调透明度和可解释性,使其成为理解和校正MLLM中失真的有价值工具。

研究人员在三个基准数据集(POPE、MME和LLaVA-QA90)上评估了Woodpecker。在POPE基准测试中,Woodpecker在基线模型MiniGPT-4和mPLUG-Owl上显著提高了准确性,分别实现了30.66%和24.33%的准确性改善。该框架在不同设置(包括随机、流行和对抗性场景)中表现出一致性。

在MME基准测试中,Woodpecker显示出显著的改进,特别是在与计数相关的查询中,它的表现超过了MiniGPT-4 101.66个得分。对于属性级查询,Woodpecker提高了基线模型的性能,有效解决了属性级错觉。

在LLaVA-QA90数据集中,Woodpecker一直提高了准确性和详细性指标,表明其能够校正MLLM生成的响应中的错觉,并丰富描述内容。

总之,Woodpecker框架为解决多模态大型语言模型中的错觉提供了一种有希望的校正方法。它通过关注解释和校正而不是重新训练,为提高MLLM生成描述的可靠性和准确性提供了有价值的工具,并有潜在的在涉及文本和图像处理的各种应用中带来好处。

Leave a Reply

Your email address will not be published. Required fields are marked *