Press "Enter" to skip to content

Contextual AI推出LENS:一种用于视觉增强语言模型的AI框架,其在VQAv2上的表现比Flamingo高出9%(从56%提升至65%)

Contextual AI推出LENS:一种用于视觉增强语言模型的AI框架,其在VQAv2上的表现比Flamingo高出9%(从56%提升至65%) 计算科学 第1张Contextual AI推出LENS:一种用于视觉增强语言模型的AI框架,其在VQAv2上的表现比Flamingo高出9%(从56%提升至65%) 计算科学 第2张

大型语言模型(LLMs)近年来在自然语言理解方面取得了重大突破,尤其在零样本和少样本环境下,展示出卓越的语义理解、查询解决和文本生成能力。如图1(a)所示,已经提出了多种方法来使用LLMs处理涉及视觉的任务。光学编码器可以被训练成将每张图片表示为一系列连续的嵌入,让LLM能够理解它。另一种方法是使用对比训练的冻结视觉编码器,同时在冻结的LLM上添加额外的层,然后从头开始学习。

另一种方法建议训练一个轻量级的Transformer来对齐一个冻结的视觉编码器(经过对比训练的预训练)和一个冻结的LLM。尽管在上述研究中取得了进展,但仍然难以证明额外的预训练阶段的计算成本是合理的。此外,为了将视觉和语言模态与现有的LLM同步,需要大量的数据库,包括文本、照片和视频。Flamingo在预训练的LLM中增加了新的跨注意力层,以增加视觉特征。

Contextual AI推出LENS:一种用于视觉增强语言模型的AI框架,其在VQAv2上的表现比Flamingo高出9%(从56%提升至65%) 计算科学 第3张
图1:比较协调视觉和语言模态的方法。多模态预训练有两个选择:(a)使用配对或网络数据集;(b)LENS,一种无需额外多模态数据集就可以与任何现成的LLM一起使用的无预训练技术。与LENS不同,以前的方法需要在大规模多模态数据集上进行联合对齐预训练,以完成视觉任务。

多模态预训练阶段需要惊人的20亿个图片-文本对和4300万个网站,即使使用预训练的图像编码器和预训练的冻结LLM,也可能需要15天的时间。相反,他们可以使用各种“视觉模块”从视觉输入中提取信息,并生成详细的文本表示(如标签、属性、动作和关系等),然后直接将其馈送给LLM,避免了额外的多模态预训练的需要,如图1(b)所示。Contextual AI和斯坦福大学的研究人员引入了LENS(Large Language Models Enhanced to See),这是一种模块化策略,将LLM作为“推理模块”使用,并在不同的“视觉模块”之间运行。

他们首先使用预训练的视觉模块(如对比模型和图像字幕模型)在LENS技术中提取丰富的文本信息。然后将文本发送到LLM,使其能够进行对象识别、视觉和语言(V&L)等任务。LENS通过消除对额外多模态预训练阶段或数据的需求,免费地弥合了模态之间的差距。此外,这种整合使我们能够立即利用计算机视觉和自然语言处理领域的最新进展,最大限度地发挥两个学科的优势。

他们提供了以下贡献:

• 他们提出了LENS,一种通过使用语言模型的少样本、上下文学习能力来处理计算机视觉挑战的模块化方法。

• LENS使任何现成的LLM都能够在不经过进一步的训练或数据的情况下进行视觉处理。

• 他们使用冻结的LLM来处理对象识别和视觉推理任务,无需额外的视觉和语言对齐或多模态数据。实验结果表明,他们的方法在零样本性能上与Kosmos和Flamingo等端到端联合预训练模型相媲美或更优。他们的论文的部分实现已经在GitHub上可用。

Leave a Reply

Your email address will not be published. Required fields are marked *