

高质量的3D内容合成对于许多应用来说是一个至关重要且具有挑战性的问题,比如自动驾驶、机器人模拟、游戏、电影制作以及未来的VR/AR场景。由于越来越多的3D内容数据集的可用性,3D几何建模这个领域已经引起了计算机视觉和图形界的广泛研究兴趣。尽管3D几何建模已经取得了很大的进展,但是创建物品的外观或纹理仍然需要大量的人力。开发和编辑通常需要很长时间,并且需要具备使用Blender等3D建模程序的丰富经验。
因此,对于人类技能的高需求和相关成本阻碍了自主纹理设计和增强达到完全工业化。通过利用2D扩散模型的最新发展,特别是针对预定义形式的纹理合成方面的方法,已经在文本到3D创建方面取得了很大的进展。两个开创性的工作Text2Tex和Latent-Paint产生了高质量的物体外观,并实现了从输入提示中合成高保真度的纹理。虽然这些方法对于单个物体产生了有趣的结果,但要将它们扩展到为场景生成纹理仍然存在一些困难。
一方面,纹理接缝、累积的伪影和循环闭合问题是将2D视图投影到3D物体表面的自回归算法的常见问题。当每个物体都有自己的纹理时,保持图片风格的一致性可能是一项具有挑战性的任务。相反地,纹理优化是在低分辨率潜空间中使用基于分数蒸馏的方法进行的,这经常导致错误的几何细节和朦胧的RGB纹理。因此,之前的基于文本的方法无法生成高品质的3D场景纹理。
慕尼黑工业大学和Snap Research的研究团队提出了SceneTex,这是一个独特的设计,使用深度到图像扩散先验来为内部场景网格生成高质量且风格一致的纹理,以解决上述问题。该研究团队采用了一种独特的策略,将纹理创建视为使用扩散先验在RGB空间中进行纹理优化的挑战,而不是现有技术中反复将2D视图弯曲到网格表面上。基本上,研究团队引入了一个多分辨率纹理场,以细致地描绘网格的外观。研究团队使用多分辨率纹理以准确地呈现多种尺寸的纹理细节。因此,他们的设计现在可以适应低频和高频的外观信息。研究团队使用交叉注意力解码器来减少自遮挡引起的风格不一致,以确保所创建纹理的风格一致性。
从实用的角度来看,每个解码后的RGB值都是通过与分布在每个物体上的预采样参考表面位置进行交叉参考生成的。因为每个可见位置都会获得整个实例外观的全局参考,所以研究团队可以进一步确保每个模型内部的全局风格一致性。研究团队通过全面的试验表明,SceneTex可以根据提供的语言信号准确而灵活地创建内部场景的纹理。研究团队通过对3DFRONT数据集的部分进行用户研究,证明了SceneTex在2D指标(如CLIP和Inception分数)方面优于其他基于文本的纹理创建算法。
研究团队的技术贡献可以概括如下:
• 使用深度到图像扩散先验,研究团队创建了一个独特的框架,用于生成高质量的高分辨率场景纹理。
• 研究团队使用多分辨率纹理通过提出隐式纹理场来准确捕捉丰富的纹理特征,以记录物体在多个尺度上的外观。
• 与以往的合成技术相比,研究团队通过使用交叉注意力纹理解码器,为3D-FRONT场景生成更美观和风格一致的纹理,以确保每个实例的全局风格一致性。