字节跳动和CMU的研究人员推出了AvatarVerse一种新颖的AI管道，用于生成由文本描述和姿势指导控制的高质量3D头像

字节跳动和CMU的研究人员推出了AvatarVerse一种新颖的AI管道，用于生成由文本描述和姿势指导控制的高质量3D头像四海第1张

3D头像在游戏开发、社交媒体与通信、增强与虚拟现实以及人机交互等行业中有广泛应用。高质量的3D头像建模一直备受关注。传统上，这些复杂的3D模型是由训练有素的艺术家手工建造的，这是一项耗时且劳动密集的过程，需要几千小时的时间和丰富的美学和3D建模知识。因此，他们的目标是仅使用自然语言描述自动创建高质量的3D头像，因为这具有重要的研究潜力和资源节约能力。

最近，从多视角电影或参考照片重建高保真度的3D头像引起了很大关注。这些技术无法根据复杂的文本提示构建富有想象力的头像，因为它们依赖于从电影或参考图片中获取的限制性视觉先验知识。扩散模型在创建2D图像时表现出色，主要是因为有许多大规模的文本-图像组合可用。然而，缺乏多样性和3D模型的短缺使得充分训练3D扩散模型变得困难。

最近的研究探索了优化神经辐射场以使用预训练的文本-图像生成模型生成高保真度的3D模型。然而，创建具有不同位置、外观和形式的坚固3D头像仍然具有挑战性。例如，仅使用常规评分蒸馏采样而没有额外的控制来指导NeRF优化可能会引入Janus问题。除此之外，目前的方法创建的头像经常显示出明显的粗糙和模糊，导致缺乏高分辨率的局部纹理细节、配饰和其他重要方面。

字节跳动和CMU的研究人员提出了AvatarVerse，这是一个专为使用文本描述和位置指导生成高质量可靠的3D头像的独特框架，以解决这些限制。他们首先使用800K或更多人类DensePose图片训练了一个全新的ControlNet。然后，在ControlNet之上，实施了基于2D DensePose信号的SDS损失条件。他们可以在每个2D视图和3D空间之间以及许多2D视图之间实现精确的视图对应关系。他们的技术消除了困扰大多数以前方法的Janus问题，同时还能够对创建的头像进行姿势控制。因此，它为头像的生成过程提供了更可靠和一致的保证。通过DensePose提供的精确和可调整的监督信号，生成的头像还可以与SMPL模型的关节对齐，使得骨骼绑定和控制变得简单高效。

他们提出了一种渐进式高分辨率生成技术，以提高局部几何的逼真度和细节，而仅依赖于DensePose条件的ControlNet可能会产生局部伪像。他们使用平滑度损失，在计算上高效的显式神经辐射场中促进密度体素网格的平滑梯度，以减少生成头像的粗糙度。

以下是总体贡献：

• 他们介绍了AvatarVerse，一种只使用文字描述和参考人体姿态就能自动创建高质量3D头像的技术。

• 他们提供了基于DensePose条件的评分蒸馏采样损失方法，这种方法使得创建具有姿势意识的3D头像更加容易，并成功缓解了Janus问题，提高了系统的稳定性。

• 通过一种系统的高分辨率生成过程，他们提高了生成的3D头像的质量。这项技术通过严格的由粗到细的精炼过程，创建了具有出色细节的3D头像，包括手部、配饰等。

• AvatarVerse在质量和稳定性方面表现出色，优于竞争对手。通过深入的用户研究和细致的定性评估，展示了AvatarVerse在创建高保真度3D头像方面的卓越性。

这为可靠的零次试验3D头像生成设立了新的标准。他们在GitHub网站上提供了他们技术的演示。