

以体积记录和真实表现4D(时空)人类表演来消除观众和表演者之间的障碍。它提供各种沉浸式的VR / AR体验,如远程呈现和远程教育。一些早期系统使用非刚性配准明确地从录制的镜头中重新创建纹理模型。然而,它们仍然容易受到遮挡和纹理缺陷的影响,从而导致重建输出中的缺口和噪音。最近的神经突破,如NeRF,通过优化基于坐标的多层感知器(MLP),而不是诉诸于显式重建,以实现照片级别的体积渲染。
某些动态NeRF变体旨在通过额外的隐式变形场保持一个规范的特征空间,用于在每帧中重现特征。然而,这样的规范设计对重要的拓扑变化或大规模运动敏感。通过平面因子化或哈希编码,最新的方法消除了变形场,并简洁地描述了4D特征网格。它们极大地加快了交互式程序渲染和训练的速度,但在运行时内存和存储问题上有待解决。最近,3D高斯点(3DGS)回归到了表示静态场景的显式范例。它基于GPU友好的3D高斯基元的光栅化,实现了以前无法实现的实时高质量辐射场渲染。一些正在进行的项目修改3DGS以适应动态设置。
一些集中在捕捉动态高斯的非刚性运动,但在过程中失去渲染质量。其他的失去了原始3DGS的明确和GPU友好的优雅,并且不能处理长期运动,因为它们使用额外的隐式变形场来填补运动信息。在本研究中,上海科技大学、NeuDim、字节跳动和DGene的研究团队介绍了HiFi4G,这是一种完全明确且紧凑的基于高斯的方法,用于从密集视频中重现高保真度的4D人类表演(参见图1)。他们的主要概念是将非刚性跟踪与3D高斯表示相结合,将运动和外观数据分离,以实现紧凑和压缩友好的表示。HiFi4G在当前隐式渲染技术的优化速度、渲染质量和存储开销方面表现出色。
借助明确表示的帮助,他们的结果也可以轻松集成到基于GPU的光栅化流水线中,让用户在佩戴VR头盔时见证高保真度的虚拟现实人类表演。研究团队首先提供了一个由细粒度高斯和粗略变形图组成的双图技术,以自然地将高斯表示与非刚性跟踪连接起来。对于前者,研究团队使用NeuS2在使用嵌入式变形(ED)以关键帧的方式之前为每帧创建几何代理。这种明确的跟踪技术将序列分成若干部分,在每个片段内提供丰富的运动先验。类似于关键体积更新,研究团队通过使用3DGS从先前的片段减去错误的高斯并更新新的高斯来限制当前片段中的高斯数量。
接下来,研究团队构建了一个细粒度的高斯图,以通过从粗略的ED网络中插值每个高斯运动进一步初始化。通过简单地将高斯图与ED图弯曲并转换到屏幕空间,会导致严重的不自然扭曲;而持续优化而没有任何限制则会产生抖动的伪影。为了适当地平衡高斯特征的更新和非刚性运动先验,研究团队建议了一个4D高斯优化方法。研究团队使用时态正则化器确保每个高斯的外观属性的一致性,例如不透明度、缩放系数和球面谐波(SH)。研究团队建议对动态特性(位置和旋转)进行平滑处理,以在相邻高斯之间生成尽可能刚性的移动。
为了惩罚那些展示出小型、非刚性运动的区域上的闪烁瑕疵,这些正则化器添加了自适应加权机制。研究团队在优化后生成了时空紧凑的四维高斯模型。研究团队提出了一种伴随压缩技术,该技术采用了常规的残差校正、量化和熵编码,用于对高斯参数进行处理,以使其HiFi4G对消费者有用。每帧具有显著的压缩比约为25倍,并且仅需要不到2MB的存储空间,使其能够在各种设备上进行沉浸式观测,包括虚拟现实头显设备。
简而言之,他们的主要贡献包括以下几点:
• 研究团队引入了一种紧凑的四维高斯模型,将高斯飞溅与非刚性跟踪相连接,用于人体表演渲染。
• 研究团队提供了一种双图结构方法,可以有效地恢复具有空间时间一致性的四维高斯模型,采用不同的正则化设计。
• 研究团队提供了一种互补的压缩方法,可以在多个平台上实现低存储的沉浸式人体表演体验。