Press "Enter" to skip to content

商汤研究提出Story-to-Motion:一种从长文本生成人类动作和轨迹的新人工智能方法

人工智能正步入几乎每个行业。从一个故事中创造出自然的人类动作有着彻底改变动画、视频游戏和电影行业的能力。其中一项最困难的任务是故事到动作的转换,当角色必须在不同区域移动并执行某些动作时就会出现这种情况。基于详细的书面描述,这项任务需要高级运动语义控制和处理轨迹的低级控制之间的平滑集成。

尽管已经付出了很多努力来研究文本到动作和角色控制,但还没有找到适当的解决方案。现有的角色控制方法有很多局限性,因为它们不能处理文本描述。即使是当前的文本到动作方法也需要更多的位置约束,导致生成不稳定的动作。

为了克服所有这些挑战,一组研究人员提出了一种独特的方法,该方法在生成轨迹方面非常有效,并生成了受输入文本影响的可控且无限长的动作。该方案包括以下三个主要组成部分。

  1. 文本驱动的动作调度:现代大型语言模型从长篇的文字描述中获取文本、位置和持续时间的序列,并将它们用作文本驱动的动作调度器。这一阶段确保生成的动作基于故事,并包含有关每个动作位置和长度的细节。
  1. 文本驱动的动作检索系统:将运动匹配和运动轨迹和语义的约束相结合,创建了一个全面的动作检索系统。这确保生成的动作满足预期的语义和位置属性,同时还包括文本描述。
  1. 渐进式遮罩变换器:设计了一个渐进式遮罩变换器,用于解决转场动作中频繁出现的问题,如脚滑动和不寻常的姿态。这个元素对于提高生成的动作质量、产生过渡更流畅、外观更逼真的动画至关重要。

研究团队表示,该方法已在三个不同的子任务上进行了测试:动作融合、时间动作组合和轨迹跟踪。与早期的运动合成技术相比,评估结果显示在每个方面性能都有所提升。研究人员总结了他们的主要贡献如下。

  1. 从长篇文字描述生成全面动作引入了轨迹和语义,从而解决了故事到动作的问题。
  1. 提出了一种名为文本驱动的运动匹配的新方法,使用广泛的文本输入提供精确和可定制的运动合成。
  1. 在轨迹跟踪、时间动作组合和动作融合子任务中,该方法优于现有技术,这已通过在基准数据集上进行的实验证明。

总之,该系统在从文字叙述中综合生成人类动作方面无疑是一个重大的进步。它为故事到动作工作所带来的问题提供了完整的解决方案。它无疑将对动画、游戏和电影行业产生颠覆性的影响。

Leave a Reply

Your email address will not be published. Required fields are marked *