谷歌AI提出PixelLLM：一种能够进行细粒度定位和视觉语言对齐的视觉语言模型

大型语言模型（LLMs）成功利用了人工智能（AI）的子领域，包括自然语言处理（NLP），自然语言生成（NLG）和计算机视觉。借助LLMs，我们能够创建能够复杂推理关于图像的视觉语言模型，回答与图像相关的问题，并用自然语言描述图像。然而，LLMs是否能够执行词定位或定位引用等定位任务仍然不确定。

为了克服这个挑战，谷歌研究和UC圣地亚哥的研究人员团队引入了一种智能模型称为PixelLLM，可以实现精细的定位和视觉语言对齐。这种方法受到了人们自然行为的启发，尤其是婴儿用手势、指点和命名来描述他们的视觉环境。团队表示，目标是找出LLMs如何从视觉输入中获得空间理解和推理。

PixelLLM将语言模型的每个单词输出密集对准到像素位置上。为此，添加了一个微小的多层感知机（MLP），它能够对每个单词的像素位置进行回归。使用了低秩微调（LoRA），允许更新或冻结语言模型的权重。该模型还可以接收文本或位置提示，使其能够提供符合提示的输出。

该模型的架构包括图像编码器、提示编码器和提示特征提取器。大语言模型接受提示条件下的图片特征和可选的文本提示作为输入，并输出每个单词的定位和标题。该架构能够接受多样的语言或位置组合作为输入或输出，适应各种视觉语言活动。

团队使用诸如密集物体字幕、位置条件字幕和引用定位等众所周知的视觉任务评估了该模型。PixelLLM在各种挑战中展现出卓越的性能指标，包括RefCOCO引用定位上的89.8 P@0.5，Visual Genome条件化字幕上的19.9 CIDEr以及密集物体字幕上的17.0 mAP。密集的像素定位公式非常重要，这在对RefCOCO进行的消融实验中得到了证明，相对于其他的定位公式，它取得了3.7个百分点的提升。因此，PixelLLM在实现精准的视觉语言对齐和定位方面取得了成功。

团队总结了他们的主要贡献如下：

引入了一个名为PixelLLM的新的视觉语言模型，可以生成单词定位和图片标题。

该模型支持文本或可选的位置提示，除图片输入外。

使用了定位的叙述数据集进行每个单词定位的训练。

该模型能够适应各种视觉语言任务，包括分割、位置条件字幕、引用定位和密集字幕。

该模型在位置条件字幕、密集字幕、引用定位和分割方面展现出卓越的结果。