Press "Enter" to skip to content

Magic123介绍:一种新的图像到3D的流水线,使用两阶段的粗到精优化过程,生成高质量、高分辨率的3D几何和纹理

Magic123介绍:一种新的图像到3D的流水线,使用两阶段的粗到精优化过程,生成高质量、高分辨率的3D几何和纹理 四海 第1张Magic123介绍:一种新的图像到3D的流水线,使用两阶段的粗到精优化过程,生成高质量、高分辨率的3D几何和纹理 四海 第2张

尽管人类只能以二维方式看世界,但他们擅长在三维环境中导航、思考和互动。这表明了一种深深根植于人类本性的三维环境的认知意识。能够从一张照片中创建详细的三维复制品的艺术家将这种技能提升到了一个新的水平。然而,经过几十年的研究和进展,从非姿势图像进行三维重建的挑战,包括几何和纹理的生成,仍然是计算机视觉领域一个开放且不适定的课题。由于近期深度学习的进展,许多三维创建活动可以通过学习来实现。

尽管深度学习在图像识别和生成方面取得了重大进展,但在真实世界中的单幅图像三维重建这一特定挑战方面仍有待改进。他们将人类和机器在三维重建能力上的显著差距归咎于两个主要问题:(i) 缺乏大规模的三维数据集,以防止三维几何的大规模学习,以及(ii) 在处理三维数据时,在细节级别和计算资源之间存在权衡。利用二维先验是解决这个问题的一种策略。在线上有大量真实的二维图片数据。为了训练像CLIP和Stable Diffusion这样的先进图像解释和生成算法,最全面的文本-图像对数据集之一是LAION。

随着二维生成模型的扩展泛化能力的增强,使用二维模型作为先验来创建三维材料的策略越来越多。DreamFusion在文本到三维创建中首创了这种基于二维先验的技术。该方法在零样本情况下展示了引导独特视角和增强神经辐射场(NeRF)的卓越能力。在DreamFusion的基础上,最近的研究尝试使用RealFusion和NeuralLift等方法将这些二维先验适应于单张图像的三维重建。另一种策略是使用三维先验。在早期的研究中,诸如拓扑限制之类的三维先验被用于辅助三维创建。这些手工制作的三维先验可以创建一些三维内容,但可能不够好。

最近对二维扩散模型进行了修改,使其成为视角依赖的,并将这种视角依赖的扩散用作Zero-1-to-3和3Dim等技术中的三维先验。根据行为分析,二维和三维先验都有优点和缺点。与三维先验相比,二维先验在三维创建方面具有出色的泛化能力,如图1中的龙像示例所示。由于其有限的三维理解能力,仅依赖于二维先验的方法最终会失去三维的准确性和一致性。这导致了不真实的几何结果,如许多面(双面问题)、不同大小、不均匀的纹理等。图1中的泰迪熊示例是一个失败的情况。

然而,由于缺乏三维训练数据,需要更多地依赖于三维先验来进行野外重建。因此,正如图1所示,虽然基于三维先验的解决方案成功处理常见物品(如顶行的泰迪熊示例),但它们在处理不常见物品时困难重重,产生过于简单甚至扁平的三维几何形状(如左下角的龙像)。本研究中来自沙特阿拉伯国王阿卜杜拉科技大学(KAUST)、Snap Inc.和牛津大学视觉几何组的研究人员提倡同时使用两种先验来引导图像到三维创建中的创新视角,而不仅仅依赖于二维或三维先验。他们可以通过调整二维和三维先验之间具体但有用的权衡参数来控制生成的三维几何中的探索和开发之间的平衡。

Magic123介绍:一种新的图像到3D的流水线,使用两阶段的粗到精优化过程,生成高质量、高分辨率的3D几何和纹理 四海 第3张

图1展示了Magic123的2D和3D先验之间的权衡。一个经常出现的玩具熊、两个叠放的甜甜圈(一个不太常见的物品)和一座龙像(一个不常见的物体)是他们比较单张图像重建的三种情景。从右侧可以看到,只有2D背景的Magic123更倾向于几何探索,并以更大的创造力创建3D物体,但可能缺乏一致性。只有3D先验的Magic123(左侧)则优先考虑几何利用,导致准确但可能更简单且缺少特征的几何形状。

优先考虑2D先验可以提高创造性的3D技能,以弥补每个2D图像中部分3D信息的不足。然而,这可能会导致3D几何的准确性降低,因为缺乏对3D的理解。另一方面,优先考虑3D先验可以得到更多受3D约束的解以及更准确的3D几何,但代价是创造力降低以及在困难和不寻常情况下寻找可行解的能力减弱。他们提出了Magic123,这是一种先进的图像到3D的流水线,使用两阶段粗到精的优化方法,同时利用2D和3D先验生成高质量的3D输出。

他们在粗阶段对神经辐射场(NeRF)进行改进。NeRF有效地学习了一种隐式体积表示,用于学习复杂的几何形状。然而,NeRF使用了大量内存,导致生成的低分辨率图片被发送到扩散模型,从而降低了图像到3D过程的输出质量。Instant-NGP是一种更节约资源的NeRF替代方法,限制了在16GB内存GPU上的图像到3D流水线分辨率为128×128。因此,他们添加了第二步,并使用Deep Marching Tetrahedra(DMTet),一种内存高效且纹理分解的SDF-Mesh混合表示,以提高3D内容的质量。

借助这种方法,他们可以将NeRF的几何和纹理细化分开,并将分辨率提升到1K。他们在两个阶段中使用了2D和3D先验的组合,以引导创新的视角。他们对自己的贡献进行了以下总结:

• 他们提出了Magic123,一种革命性的图像到3D的流水线,使用两阶段粗到精的优化过程创建高质量、高分辨率的3D几何和纹理。

• 他们建议同时使用2D和3D先验从任意给定的图像中创建准确的3D内容。先验的强度参数可以在探索几何和利用几何之间进行权衡。用户可以通过调整这个权衡参数来创建所需的3D内容。

• 他们可以找到2D和3D先验之间的平衡权衡,从而得到相对逼真和详细的3D重建结果。Magic123在真实世界和合成环境中,使用相同的参数集合为所有样本生成最先进的单张非姿势照片的3D重建结果,无需进一步重新配置。

Leave a Reply

Your email address will not be published. Required fields are marked *