KAIST研究人员引入FaceCLIPNeRF：使用可变形NeRF的文本驱动的3D人脸操作流程

KAIST研究人员引入FaceCLIPNeRF：使用可变形NeRF的文本驱动的3D人脸操作流程四海第1张

3D数字人类内容改进的关键组成部分是能够轻松操纵3D面部表达。虽然神经辐射场（NeRF）在重建3D场景方面取得了重大进展，但其许多操纵技术都集中在刚性几何或颜色操纵上，这需要改进以满足对面部表情具有细粒度控制的工作的需求。尽管最近的一项研究提出了一种区域控制的面部编辑方法，但它需要从选定的训练帧中收集用户注释的面部不同部分的蒙版，然后进行人工属性控制以实现所需的改变。

面部特定的隐式表示技术使用可变形面部模型的参数作为先验，以高保真度地编码观察到的面部表情。然而，它们的手动操作需要涵盖一系列面部表情并且大约包含6000帧的大型训练集。这使得数据收集和操作过程都变得艰巨。与此不同，KAIST和Scatter Lab的研究人员开发了一种方法，该方法通过包含几种不同类型的面部变形实例的动态肖像视频进行训练，从而允许基于文本的修改，如图1所示。

KAIST研究人员引入FaceCLIPNeRF：使用可变形NeRF的文本驱动的3D人脸操作流程四海第3张 — 图1

他们的方法在控制面部变形之前使用HyperNeRF从一个规范空间学习并隔离观察到的变形。特别地，通过训练帧间共享的常见潜在代码条件隐式场网络和逐帧变形潜在代码进行教学。他们的基本发现是使用多个空间可变的潜在代码来表示操纵任务的场景变形。这个顿悟是从朴素地将HyperNeRF公式应用于操纵问题的缺点中产生的，即寻找一个编码所需面部扭曲的单个潜在代码。

例如，单个潜在代码无法传达需要许多情况下所见的局部变形混合的面部表情。在他们的研究中，他们将这个问题称为“链接的局部属性问题”，并通过提供具有空间可变潜在代码的修改场景来解决它。为了做到这一点，他们首先将所有观察到的变形编译成一组锚定代码，然后教导多层感知机（MLP）将它们组合起来生成多个位置条件潜在代码。然后，通过将潜在代码的生成图像与CLIP嵌入空间中的目标文本接近，实现了潜在代码对目标文本的视觉特征的反映。总之，他们的工作对以下方面做出了贡献：

• 设计一种学习使用具有空间可变潜在代码表示场景的操纵网络

• 提出了基于文本驱动的使用NeRF重建的面部的操纵流程

• 据他们所知，第一个能够操纵使用NeRF重建的面部的文本。