

大型语言模型和扩散模型的发展为将文本到图像模型与可微分的神经三维场景表示相结合铺平了道路,其中最好的例子是DeepSDF、NeRF和DMTET。这些模型使得仅通过文本描述就能够创建准确的三维模型成为可能。尽管这些进展在人工智能社区中取得了巨大的进步,但就形状和纹理而言,生成的对象或角色经常无法产生出优质逼真的三维头像。这些角色也可能无法适应传统的计算机图形工作流程。
最近的研究中,一个研究团队引入了一种名为TADA(Text to Animatable Digital Avatars)的简单而强大的方法,将口语描述转换为具有引人注目的几何形状和逼真纹理的表情丰富的三维头像。这些头像可以使用传统的图形方法进行动画处理,并且视觉上非常令人愉悦。现有的从文本生成角色的技术在几何和纹理质量方面存在问题。这些技术在动画方面有困难,因为在几何和纹理方面存在不匹配,尤其是在面部。TADA通过在2D扩散模型和参数化身体模型之间形成强大的协同作用来解决这些问题。
创建复杂头像表示对于TADA的发明至关重要。该团队在SMPL-X身体模型上添加了一个位移层和纹理映射来改进它。结果,SMPL-X以高分辨率形式呈现,能够捕捉更细致的纹理和特征。引入了一种分层渲染方法和分数蒸馏采样(SDS),以从文本输入创建复杂的高质量三维头像。这种技术确保了头像的详细和全面的特征。
为了使头像的几何形状和纹理对齐,团队在整个SDS优化过程中使用了创建角色的潜在嵌入渲染的法线和RGB图片。通过实施对齐策略,解决了以前技术中存在的对位问题,尤其是在面部区域。此外,在优化过程中使用了多种表情,以保持角色的面部表情和语义的一致性。这种方法确保了最终头像保持了原始SMPL-X模型的语义完整性,从而实现了逼真且有机地对齐动画。
TADA使用了一种名为Score Distillation Sampling(SDS)的技术。主要贡献如下:
- 具有混合网格表示的分层优化,允许高质量细节,尤其是在面部。
- 几何和纹理的一致对齐,使用优化过程对生成的角色进行形状变形,使用预定义的SMPL-X身体姿势和面部表情。
- 语义一致性和动画,确保生成的角色与SMPL-X保持语义一致,便于进行轻松准确的动画处理。
团队进行了一些定性和定量评估,评估了TADA相对于其他替代方法的优势。结果显示,TADA的能力超越了头像的制作,它实现了适合动画和渲染的大规模数字角色的构建。它还提供了文本引导编辑,为用户提供了巨大的权力和定制能力。