超越一致性：这个AI模型教会了扩散模型对鲁棒的文本到3D生成具备3D意识

超越一致性：这个AI模型教会了扩散模型对鲁棒的文本到3D生成具备3D意识四海第1张

文本到图像模型最近发展迅速，其中大部分进展都集中在文本到图像模型上。这些模型可以使用给定的文本提示生成逼真的图像。

图像生成只是这个领域研究的一个组成部分。虽然它是一个重要方面，但还有其他文本到其他模型在不同应用中起着关键作用。例如，文本到视频模型旨在根据给定的文本提示生成逼真的视频。这些模型可以显著加快内容准备过程。

另一方面，文本到3D生成已经成为计算机视觉和图形领域的关键技术。虽然仍处于初级阶段，但从文本输入生成逼真的3D模型的能力引起了学术研究人员和行业专业人士的极大兴趣。这项技术在革新各个行业方面具有巨大潜力，多学科的专家们正在密切关注其持续发展。

神经辐射场（NeRF）是一种最近引入的方法，它允许从一组2D图像或稀疏的3D点集合中高质量地渲染复杂的3D场景。已经提出了几种方法将文本到3D模型与NeRF相结合，以获得更加逼真的3D场景。然而，它们经常出现扭曲和伪影，并对文本提示和随机种子敏感。

特别是3D不连贯问题是一个常见问题，渲染的3D场景在不同视点上多次产生属于正面视图的几何特征，导致3D场景产生严重扭曲。这种失败是由于2D扩散模型对3D信息的缺乏意识，特别是相机姿态造成的。

如果有一种方法可以将文本到3D模型与NeRF的进步相结合，以获得逼真的3D渲染，那会怎么样？是时候见识一下3DFuse了。

超越一致性：这个AI模型教会了扩散模型对鲁棒的文本到3D生成具备3D意识四海第3张 — 3DFuse管道概述。来源：https://ku-cvlab.github.io/3DFuse/

3DFuse是一种中间方法，它将预训练的具有3D意识的2D扩散模型与3D一致的NeRF优化相结合，使其适用于3D一致性的渲染。它有效地将3D意识注入预训练的2D扩散模型中。

3DFuse从采样语义代码开始，以加快生成场景的语义识别。这个语义代码实际上是生成的图像和给定的文本提示，用于扩散模型。一旦完成了这一步骤，3DFuse的一致性注入模块会接收这个语义代码，并通过为给定视点投影粗糙的3D几何来获得特定于视点的深度图。他们使用现有模型来实现这个深度图。然后，深度图和语义代码被用来将3D信息注入扩散模型中。

超越一致性：这个AI模型教会了扩散模型对鲁棒的文本到3D生成具备3D意识四海第4张 — 3DFuse概述。来源：https://ku-cvlab.github.io/3DFuse/

问题在于预测的3D几何容易出现错误，这可能会改变生成的3D模型的质量。因此，在进一步进行管道之前，应该解决这个问题。为了解决这个问题，3DFuse引入了一种稀疏深度注入器，它隐式地知道如何纠正有问题的深度信息。

通过提取生成3D一致图像的扩散模型的分数，3DFuse稳定地优化了NeRF以实现视图一致的文本到3D生成。该框架在生成质量和几何一致性方面取得了显著的改进。