遇见BeLFusion：使用潜在扩散的行为潜在空间方法进行逼真且多样化的随机人体动作预测

遇见BeLFusion：使用潜在扩散的行为潜在空间方法进行逼真且多样化的随机人体动作预测四海第1张

随着人工智能（AI）继续吸引世界的目光，一项令人称奇的应用在计算机视觉和AI的交叉领域中崭露头角，即人体运动预测（HMP）。这个引人入胜的任务涉及根据观察到的运动序列预测人体主体的未来运动或动作。其目标是预测一个人的身体姿势或动作如何演变。HMP在机器人学、虚拟化身、自动驾驶车辆和人机交互等多个领域都有应用。

随机HMP是传统HMP的扩展，其重点是预测可能未来动作的分布，而不是单一确定的未来。这种方法认识到人类行为的固有自发性和不可预测性，旨在捕捉与未来动作或运动相关的不确定性。随机HMP通过考虑可能未来动作的分布来解决人类行为的可变性和多样性，从而实现更加真实和灵活的预测。在需要预测多种可能行为至关重要的场景中，如辅助机器人或监控应用，随机HMP尤为有价值。

通常使用生成模型（如GAN或VAE）来预测每个观察序列的多个未来动作来处理随机HMP。然而，这种在坐标空间中生成多样化动作的重点导致了不真实和快速发散的动作预测，可能需要更好地与观察到的动作相一致。此外，这些方法通常忽视了预测具有微小关节位移的多样化低范围行为。因此，需要新的方法来考虑行为多样性并在随机HMP任务中产生更加真实的预测。为了解决现有随机HMP方法的局限性，巴塞罗那大学和计算机视觉中心的研究人员提出了BeLFusion。这种新颖的方法引入了一个行为潜空间，以生成真实且多样化的人体运动序列。

遇见BeLFusion：使用潜在扩散的行为潜在空间方法进行逼真且多样化的随机人体动作预测四海第3张 — 生成模型中的快速和发散的动作。

BeLFusion的主要目标是将行为与动作分离，实现观察到的姿势和预测姿势之间的平滑过渡。这通过行为VAE实现，包括行为编码器、行为耦合器、上下文编码器和辅助解码器。行为编码器结合了门控循环单元（GRU）和2D卷积层，将关节坐标映射到潜在分布。然后，行为耦合器将采样的行为转移到进行中的动作，生成多样化且具有上下文适应性的动作。BeLFusion还结合了一种条件潜空间扩散模型（LDM），以准确地编码行为动态并将其有效地转移到进行中的动作，同时最小化潜在和重构错误，以增强生成动作序列中的多样性。

BeLFusion的创新架构还包括一个观察编码器，它是一个从关节坐标生成隐藏状态的自编码器。该模型利用了潜空间扩散模型（LDM），该模型使用了带有交叉注意机制和残差块的U-Net，从中采样出行为与姿势和动作分离的潜在空间。通过从行为的角度促进多样性并与最近的过去保持一致性，BeLFusion在随机HMP中产生了比最先进方法更加真实和连贯的动作预测。通过行为分离和潜空间扩散的独特组合，BeLFusion在人体运动预测方面代表了一个有希望的进展。它具有为各种应用程序生成更自然和上下文适应的动作的潜力。

遇见BeLFusion：使用潜在扩散的行为潜在空间方法进行逼真且多样化的随机人体动作预测四海第4张

实验评估显示，BeLFusion具有令人印象深刻的泛化能力，在已知和未知情景中表现出色。在使用Human3.6M和AMASS数据集的具有挑战性结果进行跨数据集评估时，它在各种指标上表现优于最先进的方法。在H36M上，BeLFusion的平均位移误差（ADE）约为0.372，最终位移误差（FDE）约为0.474。同时，在AMASS上，它的ADE约为1.977，FDE约为0.513。结果表明BeLFusion生成准确且多样化预测的能力优越，展示了它在不同数据集和动作类别上进行逼真人体运动预测的有效性和泛化能力。

遇见BeLFusion：使用潜在扩散的行为潜在空间方法进行逼真且多样化的随机人体动作预测四海第5张

总体而言，BeLFusion是一种用于人体运动预测的新方法，其在Human3.6M和AMASS数据集的准确性指标中实现了最先进的性能。它利用行为潜空间和潜扩散模型生成多样化且上下文自适应的预测。该方法能够捕捉和转移序列之间的行为，使其对领域转移具有鲁棒性，并提高了泛化能力。此外，定性评估表明，BeLFusion的预测比其他最先进的方法更加逼真。它为人体运动预测提供了有希望的解决方案，在动画、虚拟现实和机器人技术等领域具有潜在应用。