由Adobe提出的AI研究提出了一种大型重建模型（LRM），它可以在5秒内根据单个输入图像预测出物体的3D模型

“`html

许多研究人员设想过一个世界，任何二维图像都可以瞬间转化为三维模型。这个领域的研究主要受到了实现这个长期目标的通用、高效方法的寻求的推动，潜在的应用领域涵盖工业设计、动画、游戏和增强现实/虚拟现实等。

早期的基于学习的方法通常针对特定的类别表现良好，因为在一瞥之间，三维几何的固有模糊性使得先推断整体形状前先使用类别数据。最近的研究受到图像生成的最新发展的启发，如DALL-E和稳定扩散，利用了二维扩散模型令人惊叹的泛化潜力来实现多视图监督。然而，这些方法中的许多都需要仔细的参数调整和正则化，并且它们的输出受到首次使用的预训练二维生成模型的限制。

通过使用大规模重构模型（LRM），来自Adobe研究和澳大利亚国立大学的研究人员可以将单个图像转换为三维。该模型使用一个庞大的基于transformer的编码器-解码器架构，从单个图像中进行数据驱动的三维对象表示学习。当将图像馈入他们的系统时，它输出一个NeRF的三面式表示。具体而言，LRM使用预训练的视觉transformer DINO作为图像编码器生成图像特征，然后学习一个图像到三面式transformer解码器，将二维图像的交叉关注特征投影到三维三面式上，并自我关注地建模了空间结构化的三面式令牌之间的关系。解码器的输出令牌被重新形状和上采样到最终的三面式特征图上。之后，他们可以使用额外的共享多层感知机（MLP）对每个点的三面式特征进行解码，以获取其颜色和密度，并进行体积渲染，从而允许我们从任意视点生成图像。

由于其精心设计的架构，LRM具有高度可扩展和高效的特点。与体积和点云等其他表示相比，三面式NeRF在计算上更友好，使其成为一种简单且可扩展的三维表示。此外，它与图片输入的接近程度优于Shap-E对NeRF模型权重进行令牌化。此外，LRM仅通过最小化新视角下渲染图像与真实图像之间的差异来进行训练，无需过多的三维感知正则化或精细的超参数调整，使得该模型在训练中非常高效且适用于各种多视图图像数据集。

LRM是第一个大规模的三维重建模型，具有超过5亿个可学习参数和训练数据量约一百万个来自各种类别的三维形状和视频；这与更近期的方法相比，后者使用相对较浅的网络和较小的数据集。实验结果表明，LRM可以从真实世界和生成模型的照片中重建高保真度的三维形状。此外，LRM还是一个非常有用的缩小工具。

团队计划将其未来的研究重点放在以下领域：

使用最简单的基于transformer的设计和轻微的正则化来增加模型的大小和训练数据。
将其扩展到三维多模态生成模型。

借助像LRM这样的图像到三维重建模型，可以自动化一些三维设计师的工作。同时，这些技术还有助于提高创意行业的增长和可访问性。

“`