Press "Enter" to skip to content

这项AI研究提出了SMPLer-X:一种用于从单目输入实现3D/4D人体动作捕捉的通用基础模型

动画、游戏和时尚领域可能都受益于从单目照片或视频中表达人类姿势和形状的尖端领域- 表情人类姿势和形状的估计(EHPS)。为了准确地描绘复杂的人体解剖学、面部和手部,这项工作通常使用参数化人体模型(如SMPL-X)。近年来,我们见证了多个独特数据集的涌现,为研究捕捉环境、位置分布、身体可见性和摄像机视角等主题提供了额外的机会。然而,最先进的方法仍然受限于少数这些数据集,导致在各种场景中出现性能瓶颈,阻碍对未知领域的泛化。

他们的目标是通过对现有数据集进行深入分析,为EHPS建立可靠且具有全球适用性的模型。为了做到这一点,他们创建了第一个系统的EHPS基准测试,并根据四个关键标准评估了它们的表现。这证明了基准测试之间的显著不一致性,凸显了EHPS整体领域的复杂性,并呼吁通过数据扩展来解决不同场景之间的领域差距。这项深入分析突出了重新评估现有数据集在EHPS中使用的必要性,并主张切换到提供更好泛化能力的更激进替代品。

他们的研究强调了利用多个数据集从它们的互补性中受益的价值,还深入研究了影响这些数据集可转移性的相关因素。他们的研究为未来数据集收集提供了有益的建议:1)根据他们的观察,数据集不需要特别庞大,只要包含超过10万个实例就可以受益。2)如果无法采集野外(包括室外)数据集,各种室内场景是一个很好的选择。3)合成数据集变得越来越有效,同时也有可检测的领域差距。4)在缺乏SMPL-X注释的情况下,伪-SMPL-X标签是有帮助的。

根据基准测试的信息,南洋理工大学、商汤研究院、上海人工智能实验室、东京大学和国际数字经济学院(IDEA)的研究人员创建了SMPLer-X。这个通用基础模型使用各种数据集进行训练,在各种情境中提供了出色平衡的结果。这项工作展示了大规模选择数据的能力。他们以极简设计的理念开发了SMPLer-X,与算法研究的作品相脱离:SMPLer-X具有非常基本的架构,只包含EHPS最关键的组件。与对算法元素的严格分析相对,SMPLer-X旨在允许大规模数据和参数扩展,并成为未来领域研究的基础。

这是一种全面的模型,优于通过使用各种数据组合和模型大小进行实验的所有基准结果,并挑战了受限制的数据集训练的广泛做法。他们的基础模型将五个主要基准测试(AGORA、UBody、EgoBody、3DPW和EHF)的平均主要误差从超过110mm降低到70mm以下,并展示了优秀的泛化能力,顺利适应了新的场景,如RenBody和ARCTIC。此外,他们证明了优化他们的通用基础模型来发展成为特定领域专家的有效性,在全面性能方面表现出色。

他们特别采用了相同的数据选择方法,使他们的专业模型在EgoBody、UBody和EHF上实现了SOTA性能,成为首个在AGORA榜单上实现107.2mm NMVE(提高了11.0%)并刷新纪录的模型。他们提供了三个独特的贡献。1)他们利用广泛的EHPS数据集构建了第一个系统性的基准测试,为扩大训练数据规模以实现可靠和可转移的EHPS提供了重要指导。2)他们研究了数据和模型的扩展,构建了一个通用的基础模型,可以在许多场景下提供平衡的结果,并有效地扩展到未开发的数据集。3)他们通过扩展数据选择技术,优化了基础模型,使其成为跨多个基准测试的强大专家。

Leave a Reply

Your email address will not be published. Required fields are marked *