Press "Enter" to skip to content

苹果和英属哥伦比亚大学的AI研究人员提出了FaceLit:一种用于神经网络3D可重塑人脸的新型AI框架

苹果和英属哥伦比亚大学的AI研究人员提出了FaceLit:一种用于神经网络3D可重塑人脸的新型AI框架 四海 第1张苹果和英属哥伦比亚大学的AI研究人员提出了FaceLit:一种用于神经网络3D可重塑人脸的新型AI框架 四海 第2张

近年来,对于从2D图像中获取3D生成模型的任务引起了越来越多的兴趣。随着神经辐射场(NeRF)的出现,从3D模型产生的图像质量得到了显著提升,与2D模型实现的逼真程度相媲美。虽然一些特定的方法专注于3D表示,以确保第三维度的一致性,但这往往以降低图像逼真度为代价。然而,最近的研究表明,混合方法可以克服这个限制,从而增强图像逼真度。然而,这些模型的一个显著缺点在于场景元素的交织,包括几何、外观和光照,这妨碍了用户定义的控制。

已经提出了各种方法来解开这种复杂性。然而,它们要求有效实施时需要多视图图像的集合。不幸的是,当处理在真实世界条件下拍摄的图像时,这个要求带来了困难。虽然一些努力放宽了这个条件,包括来自不同场景的图片,但仍然需要多个视角的同一对象。此外,这些方法缺乏生成能力,并且需要对每个不同的对象进行单独训练,使它们无法创建新对象。在考虑生成方法时,几何和照明的交织特性仍然具有挑战性。

所提出的名为FaceLit的框架介绍了一种仅从图像中获取面部的解缠3D表示的方法。

下图展示了该架构的概述。

苹果和英属哥伦比亚大学的AI研究人员提出了FaceLit:一种用于神经网络3D可重塑人脸的新型AI框架 四海 第3张

该方法的核心是构建一个渲染流水线,强制遵守已建立的物理光照模型,类似于以前的工作,以适应3D生成建模原则。此外,该框架利用现有的照明和姿势估计工具。

基于物理的照明模型被集成到最近开发的神经体积渲染流水线EG3D中,该流水线使用三平面组件从2D图像生成用于体积渲染的深度特征。这里使用了球谐函数。随后的训练侧重于逼真性,并利用该框架固有的物理遵循性来生成逼真图像。这种与物理原理的一致性自然地促进了对解缠3D生成模型的获取。

关键的要素是将基于物理的渲染原则与神经体积渲染结合起来。正如之前所述,该策略旨在与现有的可用照明估计器无缝集成,利用球谐函数。在这个框架中,场景的漫反射和高光方面由球谐系数来描述,这些系数与表面法线和反射矢量相关联。这些系数通过神经网络生成,包括漫反射反射、材料高光反射和法线向量。然而,这种看似简单的设置有效地解开了照明与渲染过程之间的关系。

所提出的方法在三个数据集FFHQ、CelebA-HQ和MetFaces上进行了实施和测试。根据作者的说法,这产生了最先进的FID分数,将该方法置于3D感知生成模型的前沿。下面报告了所讨论方法产生的一些结果。

苹果和英属哥伦比亚大学的AI研究人员提出了FaceLit:一种用于神经网络3D可重塑人脸的新型AI框架 四海 第4张

这是FaceLit的摘要,它是一个新的人工智能框架,可以仅通过图像获取人脸的分离的3D表示。如果您感兴趣并希望了解更多信息,请随时参考下面引用的链接。

Leave a Reply

Your email address will not be published. Required fields are marked *