遇见StyleAvatar3D：一种使用图像-文本扩散模型和基于GAN的3D生成网络生成风格化3D头像的新AI方法

遇见StyleAvatar3D：一种使用图像-文本扩散模型和基于GAN的3D生成网络生成风格化3D头像的新AI方法四海第1张

自从大规模图像-文本配对和复杂的生成模型拓扑结构（如扩散模型）的出现以来，生成模型在生成高保真度的二维图片方面取得了巨大的进展。这些模型通过允许用户根据文本提示创建逼真的视觉效果，消除了人工参与。与二维模型相比，由于三维学习模型的多样性和可访问性的不足，三维生成模型仍然面临着重大的问题。高质量的三维模型的可用性受到了软件引擎中繁琐且高度专业化的手动开发三维资产的限制。

研究人员最近研究了预训练的图像-文本生成方法，以创建高保真度的三维模型来解决这个问题。这些模型包括物品的几何和外观的详细先验知识，这可能会使创建逼真且多样化的三维模型变得更容易。在这项研究中，来自腾讯、南洋理工大学、复旦大学和浙江大学的研究人员提出了一种使用经过训练的文本到图像扩散模型创建三维风格化头像的独特方法，允许用户通过文本提示选择头像的风格和面部特征。他们选择使用基于 GAN 的 EG3D 三维生成网络，主要是因为它具有几个优点。

首先，EG3D 在训练时使用校准的照片而不是三维数据，这使得利用改进的图像数据不断增加三维模型的多样性和逼真度成为可能。对于二维照片来说，这个特性非常简单。其次，他们可以独立地生成每个视角，有效地控制图像生成过程中的随机性，因为用于训练的图像在外观上不需要严格的多视角一致性。他们的方法使用了基于 StableDiffusion 的 ControlNet，允许通过预定的姿势进行图片生成，为 EG3D 训练创建校准的二维训练图像。

通过从姿势照片中重复使用摄像机特征进行学习，这些姿势可以在当前引擎中合成或检索。即使在使用准确的姿势照片作为指导时，ControlNet 在创建大角度视角（如头部的背面）时经常遇到困难。这些失败的输出需要改进生成完整的三维模型。为了解决这个问题，他们采取了两种不同的方法。首先，他们为图片生成过程中的各个视角创建了特定于视角的提示，极大地减少了失败的发生次数。即使有特定于视角的提示，合成的照片可能只能部分匹配姿势照片。

为了解决这种不匹配的问题，他们为三维 GAN 训练创建了一个粗到精的姿势感知判别器。他们的系统中的每个图片数据都有一个粗略和精细的姿势注释。在 GAN 训练过程中，他们随机选择一个训练注释。对于自信的视角（如正面），他们有很大的机会选择好的姿势注释，但对于其它视角的学习更依赖于粗略的想法。即使输入的照片包含混乱的注释，这种方法也可以生成更准确和多样化的三维模型。此外，他们还在 StyleGAN 的潜在风格空间中创建了一个潜在扩散模型，以实现使用图像输入进行条件三维生成。

由于风格代码的低维度、高表现力和紧凑性，扩散模型的训练速度很快。他们直接从训练好的三维生成器中采样图像和风格代码配对来学习扩散模型。他们对许多大规模数据集进行了全面的测试，以评估他们提出的策略的有效性。研究结果显示，他们的方法在视觉质量和多样性方面超过了当前的尖端技术。总之，这项研究介绍了一种使用经过训练的图像-文本扩散模型生成高保真度的三维头像的独特方法。

他们的架构通过允许通过文本提示确定风格和面部特征，极大地增加了头像制作的灵活性。为了解决图像位置不匹配的问题，他们还提出了一个粗到精的姿势感知判别器，这将使带有错误姿势注释的图像数据更好地利用起来。最后，他们创建了一个额外的条件生成模块，可以在潜在风格空间中使用图像输入进行条件三维生成。这个模块进一步增加了框架的适应性，并允许用户创建符合自己口味的三维模型。他们还计划开源他们的代码。