近年来,将文本和视觉表征进行扩展已成为研究的重点。近期的开发和研究在语言学习和视觉方面取得了许多突破。然而,尽管文本和视觉表征的扩展非常流行,但对于3D场景和物体的表征扩展讨论不足。
今天,我们将讨论Uni3D,这是一个旨在探索统一的3D表征的3D基础模型。Uni3D框架使用一个经过端到端预训练的2D初始化的ViT框架,将图像文本特征与对应的3D点云特征对齐。
Uni3D框架使用预文本任务和简单的架构,利用大量预训练的2D模型和图像文本对齐模型作为初始化和目标,释放2D模型和策略在3D世界中的全部潜力。
在本文中,我们将深入探讨3D计算机视觉和Uni3D框架,探索其基本概念和模型架构。所以,让我们开始吧。
Uni3D和3D表征学习:简介
在过去的几年里,计算机视觉已经成为人工智能行业中投资最大的领域之一。在2D计算机视觉框架取得重大进展之后,开发人员开始关注3D计算机视觉。这个领域,特别是3D表征学习,融合了计算机图形学、机器学习、计算机视觉和数学的各个方面,以自动化处理和理解3D几何。激光雷达等3D传感器的快速发展,以及它们在增强现实/虚拟现实行业的广泛应用,导致3D表征学习受到越来越多的关注。其潜在应用每天都在不断增长。
尽管现有框架在3D模型架构、任务导向建模和学习目标方面取得了显著进展,但大多数框架在相对较小的数据、参数和任务场景上探索3D架构。学习可扩展的3D表征,然后将其应用于不同环境中的实时应用,仍然是一个较少被探索的挑战。
接下来,在过去的几年里,扩展预训练的大型语言模型已经帮助推动了自然语言处理领域的革命,并且最近的研究表明,通过数据和模型扩展从语言到2D的进展,为开发人员尝试并再次尝试学习可扩展并在现实世界中应用的3D表征的成功铺平了道路。
Uni3D是一个可扩展且统一的预训练3D框架,旨在学习大规模的3D表征,该框架在超过10亿个参数、超过1000万个图像与超过7000万个文本和超过100万个3D形状的规模上进行了测试。下图比较了Uni3D框架中的零样本准确性与参数之间的关系。Uni3D框架成功地将3D表征从600万扩展到10亿以上。
Uni3D框架由一个2D ViT或Vision Transformer作为3D编码器,经过端到端预训练,将图像文本对齐特征与3D点云特征对齐。Uni3D框架利用预文本任务和简单的架构,充分利用预训练的2D模型和图像文本对齐模型作为初始化和目标,从而释放2D模型和策略在3D世界中的全部潜力。Uni3D框架的灵活性和可扩展性通过以下方式衡量:
- 将模型从600万扩展到10亿个参数。
- 从可视化的自监督学习中的2D初始化到文本。
- 将文本图像目标模型从1.5亿扩展到10亿个参数。
在Uni3D提供的灵活和统一的框架下,开发人员可以观察到每个组件在扩展方面表现出一致性提升。大规模的3D表示学习也极大地受益于共享的2D和放大策略。
如下图所示,与先前的方法相比,Uni3D框架在少样本和零样本设置下表现出更好的性能。值得注意的是,Uni3D框架在ModelNet上实现了超过88%的零样本分类准确率,这与一些最先进的监督方法的性能相当。
此外,Uni3D框架在执行其他代表性的3D任务,如部分分割和开放世界理解时,也能提供一流的准确性和性能。Uni3D框架旨在通过统一而简单的预训练方法,扩展3D基础模型,从而跨越各种任务学习更加强大的3D表示,最终可能有助于2D和3D视觉的融合。
Uni3D:相关工作
Uni3D框架汲取了之前的3D表示学习和基础模型在不同模态下的发展成果。
3D表示学习
3D表示学习方法使用点云来理解物体的三维结构,在最近的研究中得到了广泛探讨,已经观察到这些点云可以通过特定的3D前提任务进行自监督的预训练,包括点云建模、自重建和对比学习。
值得注意的是,这些方法适用于有限的数据,并且往往不研究将2D或NLP转化为3D的多模态表示。然而,最近的CLIP框架的成功表明通过对比学习方法从原始文本中学习视觉概念的高效率,进一步通过使用相同的对比学习方法来对齐图像、文本和点云特征来学习3D表示。
基础模型
开发人员一直在努力设计基础模型以扩展和统一多模态表示。例如,在自然语言处理领域,开发人员一直在致力于扩展预训练语言模型的框架,这在逐渐改变自然语言处理行业。此外,2D视觉领域也取得了进展,因为开发人员正在研究使用数据和模型扩展技术来推动语言到2D模型的进展,尽管由于3D数据的有限可用性以及在统一和扩展3D框架时遇到的挑战,这样的框架难以复制到3D模型。
通过从上述两个领域中学习,开发人员创造了具有超过10亿参数的Uni3D框架,这是第一个通过使用统一的ViT(Vision Transformer)架构来扩展Uni3D模型的3D基础模型。开发人员希望通过这种方法,Uni3D框架能够填补目前将2D和3D视觉分开的差距,并促进多模态的融合。
Uni3D:方法与架构
上面的图片展示了Uni3D框架的通用概述,这是一个可扩展和统一的预训练3D框架,用于大规模的3D表示学习。开发人员利用超过7000万个文本和1000万个图像,并与超过一百万个3D形状配对,将Uni3D框架扩展到超过10亿个参数。Uni3D框架使用2D ViT(Vision Transformer)作为3D编码器,然后进行端到端训练,将文本-图像数据与3D点云特征对齐,使Uni3D框架能够在各种基准测试中提供所需的效率和准确性。现在让我们详细看一下Uni3D框架的工作方式。
扩展Uni3D框架
先前对于云点表示学习的研究通常专注于设计特定模型架构,以在各种应用中实现更好的性能,并依赖于小规模数据集进行工作。然而,最近的研究尝试探索在3D中使用可扩展的预训练的可能性,但由于有限的3D数据的可用性,没有取得重大成果。为了解决3D框架的可扩展性问题,Uni3D框架利用了纯Transformer结构的强大力量,几乎与Vision Transformer相似,并可以使用统一的2D或NLP扩展策略来解决扩展模型尺寸的问题。