“视觉语言交叉领域的突破：呈现全视能项目”

“视觉语言交叉领域的突破：呈现全视能项目” 四海第1张 “视觉语言交叉领域的突破：呈现全视能项目” 四海第2张

推动AI聊天机器人的腾飞，LLMs成为了热门话题。它们在用户定制的自然语言处理功能方面表现出令人惊叹的能力，但似乎缺乏理解视觉世界的能力。为了弥合视觉和语言领域之间的差距，研究人员提出了全知（AS）项目。

全知项目旨在开放式全景视觉识别和理解，旨在创建一个模拟人类认知的视觉系统。”全景”一词指的是在一个视图中包括所有可见的内容。

全知项目包括：

全知1B（AS-1B）数据集覆盖了现实世界中350万个常见和罕见的概念，并且有1322亿个描述这些概念及其属性的标记。
全知模型（ASM）是一个统一的基于位置的图像文本基础模型。该模型由两个关键组成部分组成：一个基于位置的图像标记器和一个基于LLM的解码器。

该数据集包含了超过10亿个区域注释，以各种格式呈现，例如语义标签、位置、问答对和字幕。与以前的视觉识别数据集（如ImageNet和COCO）以及视觉理解数据集（如Visual Genome和Laion-5B）相比，AS-1B数据集因其丰富而多样化的实例级位置注释以及相应的详细对象概念和描述而脱颖而出。

AS模型的体系结构包括多个层次的统一框架，支持图像级别和区域级别的对比和生成图像文本任务。通过利用预训练的LLMs和强大的视觉基础模型（VFMs），该模型在图像文本检索和零分类等判别任务以及视觉问答（VQA）、视觉推理、图像字幕、区域字幕/VQA等生成任务中展现出有希望的性能。此外，研究人员声称，在类别不可知检测器的帮助下，还可以在短语定位和参考表达理解等基础任务中看到潜力。

全知模型（ASM）包括三个关键设计：

基于输入图像和边界框，位置感知图像标记器从图像和区域级别提取特征。
可训练的任务提示被合并到视觉和文本标记的开头，以指导模型区分判别性和生成性任务。
采用基于LLM的解码器，提取判别性任务的视觉和文本特征，并自回归生成响应标记以执行生成任务。

通过分析和比较提出的ASM与基于CLIP的基准模型（展示了GPT-2和3的零射能力）以及领先的多模态大型语言模型（VLLMs）在代表性视觉任务上的表现，进行了广泛的数据分析，包括质量、扩展性、多样性和实验。研究结果突出了我们模型在区域级别的文本生成能力，同时展示了它理解整个图像的能力。人类评估结果表明，我们ASM生成的字幕优于MiniGPT4和LLaVA生成的字幕。

该模型通过使用开放式语言提示和位置进行训练，使其能够在各种视觉和语言任务中具有显著的零射能力，包括区域-文本检索、区域识别、字幕和问答。据研究人员称，这使LLMs拥有了“全知之眼”，并彻底改变了视觉和语言的交叉领域。