Press "Enter" to skip to content

认识Seal:一种AI框架,通过利用2D视觉基础模型对大规模3D点云进行自监督学习,追求“分割任何点云序列”

认识Seal:一种AI框架,通过利用2D视觉基础模型对大规模3D点云进行自监督学习,追求“分割任何点云序列” 计算科学 第1张认识Seal:一种AI框架,通过利用2D视觉基础模型对大规模3D点云进行自监督学习,追求“分割任何点云序列” 计算科学 第2张

大型语言模型(LLMs)已经成为了人工智能领域的热门话题。它们近期的影响和惊人的表现已经帮助医疗保健、金融、娱乐等各个行业做出了很大的贡献。像 GPT-3.5、GPT 4、DALLE 2 和 BERT 这样的知名 LLMs,也被称为基础模型,可以执行非凡的任务,通过提供一个简短的自然语言提示,为我们生活带来了独一无二的内容。

最近的视觉基础模型(VFMs)如 SAM、X-Decoder 和 SEEM 在计算机视觉方面取得了许多进展。虽然 VFMs 在 2D 感知任务方面取得了巨大的进步,但 3D VFM 研究仍需要改进。研究人员建议扩展当前的 2D VFMs 用于 3D 感知任务。一个关键的 3D 感知任务是由 LiDAR 传感器捕获的点云的分割,这对于自动驾驶汽车的安全操作至关重要。

现有的点云分割技术主要依赖于已被注释用于训练的大型数据集;然而,标记点云是耗时且困难的。为了克服所有的挑战,研究团队引入了 Seal,这是一个使用视觉基础模型对不同的汽车点云序列进行分割的框架。受跨模态表示学习的启发,Seal 从 VFMs 中收集语义丰富的知识,以支持汽车点云的自监督表示学习。其主要思想是使用 LiDAR 和相机传感器之间的 2D-3D 关系来开发高质量的对比样本,用于跨模态表示学习。

Seal 具有三个关键属性:可扩展性、一致性和通用性。

  1. 可扩展性 – Seal 通过将 VFMs 转换为点云来利用它们,在预训练阶段不需要 2D 或 3D 注释。由于其可扩展性,它可以处理大量的数据,甚至有助于消除人类注释所需的耗时。
  1. 一致性 – 该架构在相机到 LiDAR 和点到段落阶段都强制执行空间和时间链接。Seal 通过捕获视觉、即相机和 LiDAR 传感器之间的跨模态交互,实现了高效的跨模态表示学习,从而确保所学习的表示包含来自两种模态的相关和连贯的数据。
  1. 通用性 – Seal 可以将知识转移至涉及各种点云数据集的下游应用程序。它可以概括和处理具有不同分辨率、大小、清洁度、污染级别、实际数据和人工数据的数据集。

研究团队提到的一些关键贡献:

  1. 提出的 Seal 框架是一个可扩展、可靠和通用的框架,用于捕获语义感知的空间和时间一致性。
  1. 它允许从汽车点云序列中提取有用的特征。
  1. 作者指出,这项研究是第一个在大规模 3D 点云上使用 2D 视觉基础模型进行自监督表示学习的研究。
  1. 在 11 个不同的点云数据集上,Seal 在下游应用程序的线性探针和精调方面都比先前的方法表现更好。

为了评估,研究团队对 11 个不同的点云数据集进行了测试,以评估 Seal 的性能。结果展示了 Seal 的优越性。在 nuScenes 数据集上,Seal 在线性探针后达到了显著的平均交集联合(mIoU) 45.0%。这个表现超过了随机初始化 36.9% mIoU,并且在 mIoU 上超过了先前的 SOTA 方法 6.1%。Seal 在所有测试的 11 个点云数据集上也在 20 个不同的少样本精调任务中表现出显着的性能提升。

Leave a Reply

Your email address will not be published. Required fields are marked *