这篇人工智能论文提议将3D世界注入大型语言模型，并引入全新的3D-LLM家族

这篇人工智能论文提议将3D世界注入大型语言模型，并引入全新的3D-LLM家族四海第1张

在过去几年中，我们见证了大规模语言模型（LLM）（如GPT4）的崛起，这些模型在包括沟通和常识推理在内的各种任务上表现出色。最近的研究关注如何将图片和视频与LLM对齐，以创建一种新型的多模态LLM（如Flamingo和BLIP-2），能够理解和理解二维视觉。然而，尽管这些模型在沟通和决策方面非常有效，但它们并不基于真实的三维物理世界中的更深层次概念，包括空间连接、可行性、物理和交互等。因此，与科幻电影中展示的能够理解三维情境并基于这些理解进行推理和规划的机器人助手相比，这种LLM是微不足道的。为了做到这一点，他们建议将三维世界纳入大规模语言模型，并引入一类全新的三维LLM，可以使用三维表示（即带有相关属性的三维点云）作为输入来处理各种三维相关任务。

这篇人工智能论文提议将3D世界注入大型语言模型，并引入全新的3D-LLM家族四海第3张 — **图 1**

当LLM使用三维情景表示作为输入时，它们从两个方面获益：(1) 它们可以将完整场景的长期记忆存储在整体的三维表示中，而不是片段性的部分观察。(2) 从三维表示中推理可以推断出三维特征，如可行性和空间链接，远远超出基于语言或二维图像的LLM的能力。数据收集是训练提出的三维LLM的一个重要障碍。缺乏三维数据使得基于三维数据创建基础模型变得困难，而互联网上的二维图像和文本数据却非常丰富。更难获取的是与口头描述相结合的三维数据。

他们提出了一系列独特的数据生成过程，以提供大量与语言相关的三维数据来解决这个问题。他们为三维数据和语言之间的交流提供了三个有效的提示过程，特别是使用ChatGPT。如图1所示，他们可以通过这种方式获取30万条三维语言数据，其中包括各种任务的信息，例如三维字幕、密集字幕、三维问题回答、三维任务分解、三维基础、三维辅助对话、导航等。下一个困难是找到与语言特征相匹配的有用的三维属性，用于三维LLM。一种方法是使用类似于CLIP的对比学习范式从头开始训练三维编码器，对齐语言和二维图片。然而，这种方法使用了大量的数据、时间和GPU资源。从不同的角度来看，最近的一些努力（如想法融合和3D-CLR）从二维多视图照片构建三维特征。他们还使用了一个三维特征提取器，根据这个提取器使用二维预训练特征的渲染多视图图片创建三维特征。

近期许多视觉语言模型（如BLIP-2和Flamingo）开始使用二维预训练的CLIP特征来训练它们的VLMs。由于它们映射到与二维预训练特征相同的特征空间，它们可以轻松地将二维VLMs作为骨干，并输入提取的三维特征以有效地训练三维LLM。三维LLM被预期具有潜在的三维空间信息感，这使它们在几个重要方面与传统的LLM和二维VLM不同。因此，来自加州大学洛杉矶分校、上海交通大学、华南理工大学、伊利诺伊大学厄巴纳-香槟分校、麻省理工学院、马萨诸塞大学阿默斯特分校和麻省理工-IBM沃森人工智能实验室的研究人员创建了一个将语言与地理位置连接起来的三维定位系统。他们将三维位置嵌入到检索到的三维特征中，更有效地编码空间信息。此外，他们向三维LLM添加了几个位置标记。然后，可以根据景物的语言描述生成位置标记来训练定位。这将使三维LLM能够更有效地记录三维空间数据。

总之，他们的论文提出了以下贡献：

• 他们提出了一种新的基于3D的大型语言模型（3D-LLMs），可以使用来自带有特征和语言提示的3D点的输入来处理一系列与3D相关的任务。他们集中研究传统的或2D-LLMs无法涵盖的活动，例如对整个场景的认知、3D空间连接、适应性和3D规划等。

• 他们创建了创新的数据收集管道，可以生成大量的3D语言数据。基于这些管道，他们收集了一个包含超过30万个3D语言数据点的数据集，涵盖了广泛的3D相关活动，例如3D grounding、密集字幕、3D问题回答、任务分解、3D辅助对话、导航等。

• 他们使用3D特征提取器，该提取器可以接收渲染的多视角图片并提取有用的3D特征。他们使用2D预训练的VLMs构建了他们的训练系统。为了让3D-LLMs更好地收集3D空间信息，他们添加了一种3D定位方法。

• 在实验中，ScanQA（一种保留评估数据集）的表现优于先进的基准模型。在ScanQA上，特别是3D LLMs在基准模型（例如BLEU-1时提高了9%）的基础上表现更好。他们的方法在使用保留数据集进行3D字幕、任务创建和3D辅助对话的测试中击败了2D VLMs。定性调查显示，他们的方法可以更详细地处理各种工作。

• 他们希望将他们的3D-LLMs、3D语言数据集以及数据集的语言对齐的3D特征提供给即将进行的研究。