ByteDance – 四海吧

数字世界的一个关键入口，更普遍地存在于社交、购物、游戏和其他活动中，是一个外观吸引人且有动画效果的3D头像。一个合适的头像应该吸引人，并且可以根据用户的外貌进行定制。许多著名的头像系统，如Zepeto1和ReadyPlayer2，采用卡通和风格化的外观，因为它们有趣且用户友好。然而，手动选择和修改头像通常需要从许多图形元素中进行繁琐的修改，这对于初学者用户来说既耗时又具有挑战性。在这项研究中，他们研究了从正面拍摄的一张自拍照片自动生成风格化3D头像的自动化方法。具体而言，给定一张自拍照片，他们的算法预测一个头像向量作为图形引擎生成3D头像并从预定义的3D资源中渲染头像图像的完整配置。头像向量包含特定于预定义资源的参数，可以是连续的（例如头部长度）或离散的（例如发型类型）。一种简单的解决方案是标注一组自拍照片，并训练一个模型通过监督学习来预测头像向量。然而，需要大规模的标注来处理大量的资源（通常是数百个）。建议使用自监督方法训练一个可微分的模拟器，通过不同的识别和语义分割损失来复制图形引擎的渲染，从而自动地将生成的头像图片与自拍照片进行匹配，从而减少标注成本。更准确地说，给定一张自拍照片，他们的系统将预测一个头像向量作为图形引擎生成3D头像并从指定的3D资源中渲染头像图像的完整设置。构成头像向量的特征是特定于预设资源的，可以是连续的（如头部长度）或离散的（如发型类型）。一种简单的方法是标注一系列自拍照片，并使用监督学习构建模型来预测头像向量。然而，需要大规模的标注来处理各种各样的资源（通常是数百个）。头像向量转换、自监督头像参数化和肖像风格化是他们创新架构的三个步骤。根据图1所示，在整个流程中，识别信息（发型、肤色、眼镜等）在三个阶段逐渐关闭域差距的同时保留。肖像风格化阶段首先关注2D真实到风格化视觉外观的域交叉。这一步保持了图像空间，同时将输入的自拍照片转换为风格化头像。对于翻译的当前风格化技术的粗略使用将保留诸如表情之类的元素，这将在流水线的后续阶段中引起明显的复杂性。图1 因此，他们开发了一种修改版的AgileGAN，以确保表情的一致性，同时保持用户的识别。然后，自监督头像参数化步骤关注的是从基于像素的图片到基于向量的头像的过渡。他们发现强制执行参数离散性会阻止优化达到收敛行为。他们采用一种宽松的形式，称为放松的头像向量，以克服这个问题，将离散参数编码为连续的独热向量。他们教授一个模拟器像不可微分的引擎一样行为，以实现训练中的可微性。在头像向量转换步骤中，所有离散参数都被转换为独热向量。从放松的头像向量空间到严格的头像向量空间进行域交叉。然后，图形引擎可以构建最终的头像并使用严格的头像向量进行渲染。他们使用一种独特的搜索技术，产生的结果优于直接量化。他们利用人类喜好研究评估他们的发现，并将结果与基线方法（如F2P和手工制作）进行比较，以查看他们的方法如何有效地保护个人独特性。他们的结果得分明显高于基线技术，并与手工制作的结果非常相似。他们还提供了一个消融研究来支持他们的流水线设计决策。他们的技术贡献包括以下要点： • 一种新颖的自监督学习框架，结合连续和离散参数生成高质量的风格化3D头像 • 一种通过肖像风格化来弥合风格域差异的新方法，用于创建风格化的3D头像 • 一种级联的松弛和搜索流水线，用于解决离散头像参数优化中的收敛问题。您可以在他们的网站上找到该论文的视频演示。

Tag: ByteDance

字节跳动人工智能研究提出了一种新颖的自监督学习框架，用于创建具有连续和离散参数混合的高质量风格化3D头像