神经射线场(NeRF)是一种基于神经网络的强大技术,用于从2D图像或稀疏3D数据中捕捉3D场景和物体。NeRF采用由两部分组成的神经网络架构:“NeRF in”网络输入像素的2D坐标和相关的相机姿势,生成一个特征向量。“NeRF out”网络以此特征向量作为输入,并预测相应3D点的3D位置和颜色信息。
要创建基于NeRF的人物表现,通常需要从多个视点捕捉人物主题的图像或视频。这些图像可以来自相机、深度传感器或其他3D扫描设备。基于NeRF的人物表现有几个潜在的应用,包括游戏和虚拟现实的虚拟化形象、动画和电影制作的3D建模,以及用于创建患者的三维模型进行诊断和治疗计划的医学成像。然而,这可能需要大量的计算资源和训练数据。
它需要结合同步多视图视频和针对特定人体视频序列进行训练的实例级NeRF网络。研究人员提出了一种新的表示方法称为ActorsNeRF。它是一种类别级的人类角色NeRF模型,可以泛化到少量瞬间情境中的未见主角。只需从单眼视频中采样得到几张图像,例如30帧,ActorsNeRF可以在AIST++数据集中合成具有未见姿势的新角色的高质量新视图。
研究人员遵循了2级规范空间的方法,对于给定的身体姿态和渲染视点,3D空间中的采样点首先通过线性混合蒙皮转换为规范空间,蒙皮权重通过在各种人物之间共享的蒙皮权重网络生成。蒙皮权重控制角色表示人物动画时的变形。蒙皮权重网络在实现3D计算机图形中的逼真角色动作和变形方面至关重要。
为了实现对不同个体的泛化,研究人员对多样化的个体集合进行了类别级NeRF模型的训练。在推理阶段,他们只使用目标演员的少量图像对预训练的类别级NeRF模型进行微调,使其适应演员的特定特征。
研究人员发现ActorsNeRF明显优于HumanNeRF方法,并且相较于HumanNeRF系统,它在更不可见的身体部分上保持了有效的形状。ActorsNeRF可以在流畅合成人体的未观察部分之前利用类别级信息。当ActorsNeRF在ZJU-MoCap和AIST++数据集等多项基准测试中进行测试时,它能在多个少量瞬间情境中优于具有未见姿势的新角色。