Press "Enter" to skip to content

超越一致性:这个AI模型教会了扩散模型对鲁棒的文本到3D生成具备3D意识

超越一致性:这个AI模型教会了扩散模型对鲁棒的文本到3D生成具备3D意识 四海 第1张超越一致性:这个AI模型教会了扩散模型对鲁棒的文本到3D生成具备3D意识 四海 第2张

文本到图像模型最近发展迅速,其中大部分进展都集中在文本到图像模型上。这些模型可以使用给定的文本提示生成逼真的图像。

图像生成只是这个领域研究的一个组成部分。虽然它是一个重要方面,但还有其他文本到其他模型在不同应用中起着关键作用。例如,文本到视频模型旨在根据给定的文本提示生成逼真的视频。这些模型可以显著加快内容准备过程。

另一方面,文本到3D生成已经成为计算机视觉和图形领域的关键技术。虽然仍处于初级阶段,但从文本输入生成逼真的3D模型的能力引起了学术研究人员和行业专业人士的极大兴趣。这项技术在革新各个行业方面具有巨大潜力,多学科的专家们正在密切关注其持续发展。

神经辐射场(NeRF)是一种最近引入的方法,它允许从一组2D图像或稀疏的3D点集合中高质量地渲染复杂的3D场景。已经提出了几种方法将文本到3D模型与NeRF相结合,以获得更加逼真的3D场景。然而,它们经常出现扭曲和伪影,并对文本提示和随机种子敏感。

特别是3D不连贯问题是一个常见问题,渲染的3D场景在不同视点上多次产生属于正面视图的几何特征,导致3D场景产生严重扭曲。这种失败是由于2D扩散模型对3D信息的缺乏意识,特别是相机姿态造成的。

如果有一种方法可以将文本到3D模型与NeRF的进步相结合,以获得逼真的3D渲染,那会怎么样?是时候见识一下3DFuse了。

超越一致性:这个AI模型教会了扩散模型对鲁棒的文本到3D生成具备3D意识 四海 第3张
3DFuse管道概述。来源:https://ku-cvlab.github.io/3DFuse/

3DFuse是一种中间方法,它将预训练的具有3D意识的2D扩散模型与3D一致的NeRF优化相结合,使其适用于3D一致性的渲染。它有效地将3D意识注入预训练的2D扩散模型中。

3DFuse从采样语义代码开始,以加快生成场景的语义识别。这个语义代码实际上是生成的图像和给定的文本提示,用于扩散模型。一旦完成了这一步骤,3DFuse的一致性注入模块会接收这个语义代码,并通过为给定视点投影粗糙的3D几何来获得特定于视点的深度图。他们使用现有模型来实现这个深度图。然后,深度图和语义代码被用来将3D信息注入扩散模型中。

超越一致性:这个AI模型教会了扩散模型对鲁棒的文本到3D生成具备3D意识 四海 第4张
3DFuse概述。来源:https://ku-cvlab.github.io/3DFuse/

问题在于预测的3D几何容易出现错误,这可能会改变生成的3D模型的质量。因此,在进一步进行管道之前,应该解决这个问题。为了解决这个问题,3DFuse引入了一种稀疏深度注入器,它隐式地知道如何纠正有问题的深度信息。

通过提取生成3D一致图像的扩散模型的分数,3DFuse稳定地优化了NeRF以实现视图一致的文本到3D生成。该框架在生成质量和几何一致性方面取得了显著的改进。

Leave a Reply

Your email address will not be published. Required fields are marked *