NTU和SenseTime的研究人员提出了SHERF：一种可泛化的人体NeRF模型，用于从单个输入图像恢复可动画的3D人体模型

NTU和SenseTime的研究人员提出了SHERF：一种可泛化的人体NeRF模型，用于从单个输入图像恢复可动画的3D人体模型四海第1张

人工智能和深度学习领域一直在快速发展。从基于自然语言处理的大型语言模型到使用计算机视觉概念的文本到图像模型，AI已经取得了长足的进步。通过使用人类神经辐射场（NeRFs），可以在不需要精确的3D几何数据的情况下从2D照片重建高质量的3D人体模型。这一发展对于增强现实（AR）和虚拟现实（VR）等多个应用具有重要影响。人类NeRFs可以加快从2D观察创建3D人体模型的过程，减少了获取真实3D数据所需的时间和资源。

目前大多数使用NeRFs重建3D人体模型的技术使用单眼电影或从不同角度使用多视角相机拍摄的多个2D照片。由于这种方法在真实世界中使用时存在缺点，即人们的照片是从随机的相机角度拍摄的，因此这给产生准确的3D人体重建带来了相当大的障碍。为了解决这些问题，研究团队提出了SHERF，这是第一个能够从单个输入图像中恢复动画3D人体模型的通用化Human NeRF模型。

SHERF在一个标准化的空间中运作，它可以从任意自由视角和姿势渲染和动画化重建的模型。这与传统技术形成对比，传统技术主要依赖固定的相机角度。编码的3D人体表示包括详细的局部纹理和全局外观信息，可以成功高质量地合成视角和位置。这是通过使用一种具有多种特征的3D感知分层特征库的概念来实现的，这些特征旨在使全面编码更加容易。

团队提到了三个层次的分层特征，即全局特征、点级特征和像素对齐特征。每个特征都有不同的功能，单个输入图像获取的信息旨在通过全局特征进行改进，全局特征试图弥补不完整的2D观察留下的空白。而像素对齐特征负责保留有助于模型整体正确性和逼真性的更小细节，点级特征提供了底层3D人体解剖的重要信号。

团队开发了一种称为特征融合变压器的设备，用于高效地组合这些3D感知分层特征，这个变压器被制作成可以组合和利用多种分层特征类型的形式，确保编码表示尽可能全面和丰富。对多个数据集（包括THuman、RenderPeople、ZJU_MoCap和HuMMan）进行了全面的测试，以展示SHERF的有效性。研究结果表明，SHERF在合并独特视角和位置方面显示出高于现有最先进水平的性能。

团队总结了主要贡献如下：

引入了SHERF，这是第一个从一张图像中恢复动画3D人体模型的通用化Human NeRF模型。

通过适应更广泛的背景，扩展了Human NeRF在现实世界场景中的适用性。

SHERF使用3D感知分层特征，捕捉了细粒度和全局属性。这使得可以恢复详细纹理并填补不完整观察中的信息空缺。

SHERF在超越以前的通用化Human NeRF方法方面表现出色，并在广泛的数据集中实现了优越的视角和姿势合成结果。

总之，这项令人惊叹的研究无疑代表了在3D人体重建领域迈出的重要一步，特别是在从随机相机角度获取照片带来特定困难的真实世界情况下。