Press "Enter" to skip to content

遇见DISCO:一种新颖的人类舞蹈生成的AI技术

遇见DISCO:一种新颖的人类舞蹈生成的AI技术 四海 第1张遇见DISCO:一种新颖的人类舞蹈生成的AI技术 四海 第2张

生成式人工智能在计算机视觉领域引起了广泛的关注。最近在文本驱动的图像和视频合成方面取得的进展,例如文本到图像(T2I)和文本到视频(T2V),借助扩散模型的出现,展示了卓越的保真度和生成质量。这些进展展示了相当大的图像和视频合成、编辑和动画潜力。然而,合成的图像/视频与完美仍有很大差距,特别是对于人类中心的应用,如人类舞蹈合成。尽管人类舞蹈合成有着悠久的历史,但现有方法在合成内容与真实舞蹈场景之间存在很大的差距。

从生成对抗网络(GANs)时代开始,研究人员尝试扩展视频到视频的风格转移,将舞蹈动作从源视频转移到目标个体,这通常需要对目标人员进行人员特定的微调。

最近的一系列工作利用预先训练的基于扩散的T2I/T2V模型,根据文本提示生成舞蹈图像/视频。这种粗粒度的条件极大地限制了可控性的程度,使用户几乎不可能精确指定预期的主题,即人类外观,以及舞蹈动作,即人类姿势。

虽然引入了ControlNet部分缓解了这个问题,通过将几何人体关键点的姿势控制与之结合,但由于其依赖于文本提示,ControlNet如何确保参考图像中丰富的语义一致性,如人类外观,仍然不清楚。此外,几乎所有现有方法都是在有限的舞蹈视频数据集上进行训练,要么具有有限的主题属性,要么具有过于简单的场景和背景。这导致对未见过的人物主题、姿势和背景组合的零样本泛化能力较差。

为了支持用户特定的短视频内容生成等实际应用,人类舞蹈生成必须符合真实舞蹈场景。因此,期望生成模型能够根据以下属性合成人类舞蹈图像/视频:保真度、泛化能力和组合性。

生成的图像/视频应通过保留与参考图像一致的人类主题和背景外观,同时准确遵循提供的姿势来展现保真度。该模型还应展示泛化能力,即在不需要人员特定微调的情况下处理未见过的人类主题、背景和姿势。最后,生成的图像/视频应展示组合性,允许从不同的图像/视频中选择任意组合的人类主题、背景和姿势。

在这方面,提出了一种新颖的名为DISCO的方法,用于在真实场景中生成人类舞蹈。该方法的概述如下图所示。

遇见DISCO:一种新颖的人类舞蹈生成的AI技术 四海 第3张
https://arxiv.org/abs/2307.00040

DISCO采用两个关键设计:一种具有分离控制的新颖模型架构,用于提高保真度和组合性,以及一种名为人类属性预训练的预训练策略,用于提高泛化能力。DISCO的新颖模型架构确保生成的舞蹈图像/视频能够忠实地捕捉所需的人类主题、背景和姿势,同时允许这些元素的灵活组合。此外,分离控制增强了模型维持忠实表示和适应多样组合的能力。此外,DISCO采用人类属性预训练策略增强模型的泛化能力。这种预训练技术赋予模型处理未见过的人类属性的能力,使其能够生成超越训练数据限制的高质量舞蹈内容。总体而言,DISCO提供了一个综合的解决方案,将复杂的模型架构与创新的预训练策略结合起来,有效解决了真实场景中人类舞蹈生成的挑战。

以下展示了生成的图像/视频以及与人类舞蹈生成的最先进技术的比较。

遇见DISCO:一种新颖的人类舞蹈生成的AI技术 四海 第4张
https://arxiv.org/abs/2307.00040

这是关于DISCO的摘要,一种生成人类舞蹈的新型人工智能技术。如果您感兴趣并想了解更多关于这项工作的信息,可以通过下面的链接找到更多信息。

Leave a Reply

Your email address will not be published. Required fields are marked *