认识Seal：一种AI框架，通过利用2D视觉基础模型对大规模3D点云进行自监督学习，追求“分割任何点云序列”

认识Seal：一种AI框架，通过利用2D视觉基础模型对大规模3D点云进行自监督学习，追求“分割任何点云序列” 计算科学第1张

大型语言模型（LLMs）已经成为了人工智能领域的热门话题。它们近期的影响和惊人的表现已经帮助医疗保健、金融、娱乐等各个行业做出了很大的贡献。像 GPT-3.5、GPT 4、DALLE 2 和 BERT 这样的知名 LLMs，也被称为基础模型，可以执行非凡的任务，通过提供一个简短的自然语言提示，为我们生活带来了独一无二的内容。

最近的视觉基础模型（VFMs）如 SAM、X-Decoder 和 SEEM 在计算机视觉方面取得了许多进展。虽然 VFMs 在 2D 感知任务方面取得了巨大的进步，但 3D VFM 研究仍需要改进。研究人员建议扩展当前的 2D VFMs 用于 3D 感知任务。一个关键的 3D 感知任务是由 LiDAR 传感器捕获的点云的分割，这对于自动驾驶汽车的安全操作至关重要。

现有的点云分割技术主要依赖于已被注释用于训练的大型数据集；然而，标记点云是耗时且困难的。为了克服所有的挑战，研究团队引入了 Seal，这是一个使用视觉基础模型对不同的汽车点云序列进行分割的框架。受跨模态表示学习的启发，Seal 从 VFMs 中收集语义丰富的知识，以支持汽车点云的自监督表示学习。其主要思想是使用 LiDAR 和相机传感器之间的 2D-3D 关系来开发高质量的对比样本，用于跨模态表示学习。

Seal 具有三个关键属性：可扩展性、一致性和通用性。

可扩展性 – Seal 通过将 VFMs 转换为点云来利用它们，在预训练阶段不需要 2D 或 3D 注释。由于其可扩展性，它可以处理大量的数据，甚至有助于消除人类注释所需的耗时。

一致性 – 该架构在相机到 LiDAR 和点到段落阶段都强制执行空间和时间链接。Seal 通过捕获视觉、即相机和 LiDAR 传感器之间的跨模态交互，实现了高效的跨模态表示学习，从而确保所学习的表示包含来自两种模态的相关和连贯的数据。

通用性 – Seal 可以将知识转移至涉及各种点云数据集的下游应用程序。它可以概括和处理具有不同分辨率、大小、清洁度、污染级别、实际数据和人工数据的数据集。

研究团队提到的一些关键贡献：

提出的 Seal 框架是一个可扩展、可靠和通用的框架，用于捕获语义感知的空间和时间一致性。

它允许从汽车点云序列中提取有用的特征。

作者指出，这项研究是第一个在大规模 3D 点云上使用 2D 视觉基础模型进行自监督表示学习的研究。

在 11 个不同的点云数据集上，Seal 在下游应用程序的线性探针和精调方面都比先前的方法表现更好。

为了评估，研究团队对 11 个不同的点云数据集进行了测试，以评估 Seal 的性能。结果展示了 Seal 的优越性。在 nuScenes 数据集上，Seal 在线性探针后达到了显著的平均交集联合(mIoU) 45.0%。这个表现超过了随机初始化 36.9% mIoU，并且在 mIoU 上超过了先前的 SOTA 方法 6.1%。Seal 在所有测试的 11 个点云数据集上也在 20 个不同的少样本精调任务中表现出显着的性能提升。