

在文本到图像领域取得了显著的进展,引发了研究界对扩展到3D生成的热情。这种兴奋主要是由于出现了利用预训练的2D文本到图像扩散模型的方法。
在这个领域的一个重要发展是由Dreamfusion完成的创造性工作。他们引入了一种名为Score Distillation Sampling (SDS)算法的新方法,这种方法的差异很大,因为它可以从文本指令中创建许多不同的3D对象。尽管它革命性的方法,但它也存在一些挑战。一个重要的限制是其对生成模型的几何和纹理的控制,往往导致过饱和和模型的多面外观等问题。
此外,研究人员还注意到,仅仅通过加强文本指令来改善模型并不能提高效果。
为了应对这些挑战,研究人员提出了一种增强的3D生成方法。这种方法的核心是通过从所需的3D模型的不同角度创建多个图像,并使用这些图像重建3D对象。这个过程首先使用现有的文本到3D生成模型,如DreamFusion,创建对象的基本表示。通过制作这些初始模型,我们对对象的形状以及它在空间中的排列有一个基本的了解。然后,该方法使用图像到图像(I2I)生成过程来改进视图的图像。
IT3D为不同的3D输出表示提供了支持,例如网格和NeRFs,并且其额外的优势在于其能够使用文本输入改变3D模型的外观。上面的图像展示了IT3D的流程。从粗糙的3D模型开始,IT3D首先使用图像到图像的流程生成一个小的姿势数据集,该数据集的条件是基于粗糙的3D模型的渲染。然后,它结合一个随机初始化的鉴别器来从生成的数据集中提取知识,并使用鉴别损失和SDS损失更新3D模型。
此外,分析显示,这种方法可以加快训练过程,减少必要的训练步骤和可比较的总训练时间。从上面的图像我们可以看到,这种方法可以容忍高方差的数据集。最后,实证结果证明,所提出的方法在纹理细节、几何形状和文本提示与生成的3D对象之间的逼真度方面显著改善了基线模型。
这种技术确实为我们提供了一个对文本到3D生成的新视角,并成为改进文本到3D任务的GAN和扩散先验的第一个研究工作。