Press "Enter" to skip to content

CMU和马克斯普朗克研究所的研究人员揭示了WHAM:一种突破性的人工智能方法,可以从视频中精确高效地估计3D人体动作

三维人体动作重建是一个复杂的过程,涉及准确捕捉和建模人体主体在三维空间中的动作。当处理由移动相机在现实世界环境中捕获的视频时,这项工作变得更加具有挑战性,因为它们经常出现脚滑等问题。然而,来自卡内基梅隆大学和马克斯普朗克智能系统研究所的研究人员开发了一种名为WHAM(基于世界的具有准确运动的人体)的方法来解决这些挑战,并实现精确的三维人体动作重建。

该研究审查了从图像中恢复三维人体姿态和形状的两种方法:无模型和基于模型。它强调了在模型化方法中使用深度学习技术来估计统计身体模型参数的重要性。现有基于视频的三维人体姿态估计方法通过各种神经网络架构引入时间信息。某些方法使用附加传感器(如惯性传感器),但它们可能会对使用者造成干扰。WHAM通过有效地结合三维人体运动和视频上下文、利用先验知识并在全局坐标中准确重建三维人体活动而脱颖而出。

该研究解决了从单目视频准确估计三维人体姿态和形状的挑战,强调全局坐标一致性、计算效率和真实脚地接触。利用AMASS动作捕捉和视频数据集,WHAM结合运动编码器-解码器网络将2D关键点提升到3D姿态,利用特征集成器处理时间线索,并利用考虑脚接触的全局运动估计的轨迹细化网络,提高在非平面表面上的准确性。

WHAM采用单向RNN进行在线推理和精确的三维动作重建,其中运动编码器用于上下文提取,运动解码器用于SMPL参数、相机平移和脚接触概率。利用包围盒标准化技术有助于提取运动上下文。图像编码器在预训练的人类网格恢复时捕捉和整合图像特征与运动特征。轨迹解码器预测全局方向,细化过程减小脚滑动。在合成的AMASS数据上进行训练,WHAM在评估中优于现有方法。

https://arxiv.org/abs/2312.07531

WHAM超越了当前最先进的方法,展现出在单帧和基于视频的三维人体姿态和形状估计方面的卓越准确性。WHAM通过利用运动上下文和脚接触信息实现精确的全局轨迹估计,减小脚滑动,增强国际协调性。该方法通过整合2D关键点和像素特征,提高了三维人体运动重建的准确性。对野外基准数据集的评估证明了WHAM在MPJPE、PA-MPJPE和PVE等指标上的卓越表现。轨迹细化技术进一步提升了全局轨迹估计的精度,减小了脚滑动,通过改进的错误指标得到了证明。

总之,该研究的要点可以总结为:

  • WHAM引入了一种结合三维人体运动和视频上下文的先导性方法。
  • 该技术提升了三维人体姿态和形状回归。
  • 该过程使用了全局轨迹估计框架,包括运动上下文和脚接触。
  • 该方法解决了脚滑动问题,确保在非平面表面上的准确三维跟踪。
  • WHAM的方法在多个基准数据集上表现出色,包括3DPW、RICH和EMDB。
  • 该方法在全局坐标中优秀地完成了高效的人体姿态和形状估计。
  • 该方法的特征集成和轨迹细化显著提高了运动和全局轨迹的准确性。
  • 该方法的准确性通过深入的消融研究得到了验证。
Leave a Reply

Your email address will not be published. Required fields are marked *