新加坡国立大学研究人员提出了IT3D：一种新的即插即用的文本到3D生成的改进AI方法

新加坡国立大学研究人员提出了IT3D：一种新的即插即用的文本到3D生成的改进AI方法四海第1张

在文本到图像领域取得了显著的进展，引发了研究界对扩展到3D生成的热情。这种兴奋主要是由于出现了利用预训练的2D文本到图像扩散模型的方法。

在这个领域的一个重要发展是由Dreamfusion完成的创造性工作。他们引入了一种名为Score Distillation Sampling (SDS)算法的新方法，这种方法的差异很大，因为它可以从文本指令中创建许多不同的3D对象。尽管它革命性的方法，但它也存在一些挑战。一个重要的限制是其对生成模型的几何和纹理的控制，往往导致过饱和和模型的多面外观等问题。

此外，研究人员还注意到，仅仅通过加强文本指令来改善模型并不能提高效果。

为了应对这些挑战，研究人员提出了一种增强的3D生成方法。这种方法的核心是通过从所需的3D模型的不同角度创建多个图像，并使用这些图像重建3D对象。这个过程首先使用现有的文本到3D生成模型，如DreamFusion，创建对象的基本表示。通过制作这些初始模型，我们对对象的形状以及它在空间中的排列有一个基本的了解。然后，该方法使用图像到图像（I2I）生成过程来改进视图的图像。

新加坡国立大学研究人员提出了IT3D：一种新的即插即用的文本到3D生成的改进AI方法四海第3张

IT3D为不同的3D输出表示提供了支持，例如网格和NeRFs，并且其额外的优势在于其能够使用文本输入改变3D模型的外观。上面的图像展示了IT3D的流程。从粗糙的3D模型开始，IT3D首先使用图像到图像的流程生成一个小的姿势数据集，该数据集的条件是基于粗糙的3D模型的渲染。然后，它结合一个随机初始化的鉴别器来从生成的数据集中提取知识，并使用鉴别损失和SDS损失更新3D模型。

新加坡国立大学研究人员提出了IT3D：一种新的即插即用的文本到3D生成的改进AI方法四海第4张

此外，分析显示，这种方法可以加快训练过程，减少必要的训练步骤和可比较的总训练时间。从上面的图像我们可以看到，这种方法可以容忍高方差的数据集。最后，实证结果证明，所提出的方法在纹理细节、几何形状和文本提示与生成的3D对象之间的逼真度方面显著改善了基线模型。

这种技术确实为我们提供了一个对文本到3D生成的新视角，并成为改进文本到3D任务的GAN和扩散先验的第一个研究工作。