从现实场景中估计人体的三维结构是一项具有重要影响的挑战性任务,对人工智能、图形学和人机交互等领域具有重要意义。现有的用于三维人体姿势估计的数据集通常在受控条件下采集,并且具有静态背景,这不能代表现实世界场景的变异性。这种限制阻碍了为现实世界应用开发精确模型的进展。
现有的数据集,如Human3.6M和HuMMan,广泛用于三维人体姿势估计,但它们是在受控实验室环境中采集的,不能很好地捕捉到现实世界环境的复杂性。这些数据集在场景多样性、人体动作和可扩展性方面存在限制。研究人员提出了各种用于三维人体姿势估计的模型,但由于现有数据集的限制,它们在应用于现实世界场景时往往效果不佳。
中国的一支研究团队引入了“FreeMan”,这是一个新颖的大规模多视角数据集,旨在解决现实世界场景中现有数据集在三维人体姿势估计方面的局限性。FreeMan是一个重要的贡献,旨在促进更精确和更强大的模型在这一关键任务中的发展。
FreeMan是一个全面的数据集,包括来自8000个序列的1100万帧,使用8个同步智能手机在不同场景下捕捉。它涵盖了40个主体和10个不同的场景,包括室内和室外环境,具有不同的光照条件。值得注意的是,FreeMan引入了相机参数和人体尺度的变异性,使其更具代表性。研究小组开发了一个自动化注释流程,从收集的数据中高效生成准确的三维注释。该流程涉及人体检测、2D关键点检测、3D姿势估计和网格注释。由此产生的数据集对于多个任务非常有价值,包括单眼三维估计、2D到3D抬升、多视角三维估计和人体主体的神经渲染。
研究人员使用FreeMan提供了各种任务的全面评估基线。他们将在FreeMan上训练的模型与在Human3.6M和HuMMan等现有数据集上训练的模型进行了比较。值得注意的是,在3DPW数据集上进行测试时,针对FreeMan训练的模型表现出明显更好的性能,突显了FreeMan在现实世界场景中的优越性。
在多视角三维人体姿势估计实验中,与在Human3.6M上训练的模型相比,针对FreeMan训练的模型表现出更好的泛化能力,当在跨领域数据集上进行测试时,结果一致显示了FreeMan多样性和规模的优势。
在2D到3D姿势抬升实验中,FreeMan的挑战是显而易见的,因为在该数据集上训练的模型面临比其他数据集上训练的模型更大的困难等级。然而,当模型在整个FreeMan训练集上进行训练时,它们的性能得到了改善,展示了该数据集通过更大规模的训练来提升模型性能的潜力。
总之,研究团队引入了FreeMan,这是一个在现实世界场景中进行三维人体姿势估计的具有突破性的数据集。他们通过提供场景多样性、人体动作、相机参数和人体尺度的多样性,解决了现有数据集的几个限制。FreeMan的自动化注释流程和大规模数据收集过程使其成为开发更精确和更强大的三维人体姿势估计算法的宝贵资源。研究论文突出了FreeMan相对于现有数据集的优越泛化能力,展示了它在现实世界应用中提高模型性能的潜力。FreeMan的可用性预计将推动人体建模、计算机视觉和人机交互的进步,弥合受控实验室条件和现实世界场景之间的差距。