Press "Enter" to skip to content

从2D到3D:通过对齐几何先验增强文本生成一致性

“`html

将2D图像转换为3D对象用于文本到3D生成是一项艰巨的任务。这主要是因为2D扩散模型仅学习了与视图无关的先验,并且在提取时没有对3D空间的理解。这个限制的结果是多视角不一致的问题,即从所有视角看,3D对象是不一致的。例如,如果我们将一个2D图像的立方体提取到3D空间中,模型可能会生成一个在一个视角上完美而在其他视角上失真的立方体。

为了解决几何不一致问题,一组研究人员提出了一种叫做SweetDreamer的新方法,该方法在提取过程中添加了明确定义的3D形状,并将扩散模型中的2D几何先验与之对齐。该模型通过微调2D扩散模型以具备视角感知能力(理解对象在不同视角下的变化)、生成具有规范方向的3D对象的特定视图坐标图来实现这一目标。这种方法非常有效地生成了从所有视角看一致的3D对象。

研究人员意识到3D不一致结果的主要原因是几何不一致,因此他们的目标是赋予2D先验生成从各个视角看时外观相同且具备通用性的3D对象的能力。

研究人员提出的方法利用了包含多样的规范方向和标准化的3D模型的全面3D数据集。从随机角度渲染深度图,并将其转换为规范坐标图。然后,他们微调2D扩散模型以生成与特定视图对齐的坐标图,最终将几何先验与2D扩散对齐。最后,对齐的几何先验可以平滑地集成到各种文本到3D系统中,有效减少不一致性问题并生成多样且高质量的3D内容。

DMTet和NeRF是文本到3D生成中常用的两种3D表示方法。在研究论文中,作者展示了他们的对齐几何先验可以集成到基于DMTet和NeRF的文本到3D流程中,以提高生成的3D对象的质量。这证明了他们方法的广泛适用性,以及提升多种文本到3D系统性能的潜力。

由于缺乏评价文本到3D过程结果的成熟指标,研究人员主要关注评估3D结果的多视角一致性。他们从DreamFusion画廊随机选择了80个提示,并使用每种方法进行文本到3D生成。随后对3D不一致性进行手动检查以报告成功率。研究人员发现,他们的方法显著优于其他方法。在两种流程(DMTet和NeRF)中,他们的成功率都超过85%,而其他方法的得分约为30%。

总之,SweetDreamers方法提供了一种实现文本到3D生成的最新技术的新颖方法。它可以从各种提示中生成不受多视角不一致问题困扰的结果。与其他先前方法相比,它具有更好的性能,研究人员认为他们的工作将开创使用有限的3D数据增强2D扩散先验以实现文本到3D生成的新方向。

“`

Leave a Reply

Your email address will not be published. Required fields are marked *