遇见DISCO：一种新颖的人类舞蹈生成的AI技术

遇见DISCO：一种新颖的人类舞蹈生成的AI技术四海第1张遇见DISCO：一种新颖的人类舞蹈生成的AI技术四海第2张

生成式人工智能在计算机视觉领域引起了广泛的关注。最近在文本驱动的图像和视频合成方面取得的进展，例如文本到图像（T2I）和文本到视频（T2V），借助扩散模型的出现，展示了卓越的保真度和生成质量。这些进展展示了相当大的图像和视频合成、编辑和动画潜力。然而，合成的图像/视频与完美仍有很大差距，特别是对于人类中心的应用，如人类舞蹈合成。尽管人类舞蹈合成有着悠久的历史，但现有方法在合成内容与真实舞蹈场景之间存在很大的差距。

从生成对抗网络（GANs）时代开始，研究人员尝试扩展视频到视频的风格转移，将舞蹈动作从源视频转移到目标个体，这通常需要对目标人员进行人员特定的微调。

最近的一系列工作利用预先训练的基于扩散的T2I/T2V模型，根据文本提示生成舞蹈图像/视频。这种粗粒度的条件极大地限制了可控性的程度，使用户几乎不可能精确指定预期的主题，即人类外观，以及舞蹈动作，即人类姿势。

虽然引入了ControlNet部分缓解了这个问题，通过将几何人体关键点的姿势控制与之结合，但由于其依赖于文本提示，ControlNet如何确保参考图像中丰富的语义一致性，如人类外观，仍然不清楚。此外，几乎所有现有方法都是在有限的舞蹈视频数据集上进行训练，要么具有有限的主题属性，要么具有过于简单的场景和背景。这导致对未见过的人物主题、姿势和背景组合的零样本泛化能力较差。

为了支持用户特定的短视频内容生成等实际应用，人类舞蹈生成必须符合真实舞蹈场景。因此，期望生成模型能够根据以下属性合成人类舞蹈图像/视频：保真度、泛化能力和组合性。

生成的图像/视频应通过保留与参考图像一致的人类主题和背景外观，同时准确遵循提供的姿势来展现保真度。该模型还应展示泛化能力，即在不需要人员特定微调的情况下处理未见过的人类主题、背景和姿势。最后，生成的图像/视频应展示组合性，允许从不同的图像/视频中选择任意组合的人类主题、背景和姿势。

在这方面，提出了一种新颖的名为DISCO的方法，用于在真实场景中生成人类舞蹈。该方法的概述如下图所示。

遇见DISCO：一种新颖的人类舞蹈生成的AI技术四海第3张 — https://arxiv.org/abs/2307.00040

DISCO采用两个关键设计：一种具有分离控制的新颖模型架构，用于提高保真度和组合性，以及一种名为人类属性预训练的预训练策略，用于提高泛化能力。DISCO的新颖模型架构确保生成的舞蹈图像/视频能够忠实地捕捉所需的人类主题、背景和姿势，同时允许这些元素的灵活组合。此外，分离控制增强了模型维持忠实表示和适应多样组合的能力。此外，DISCO采用人类属性预训练策略增强模型的泛化能力。这种预训练技术赋予模型处理未见过的人类属性的能力，使其能够生成超越训练数据限制的高质量舞蹈内容。总体而言，DISCO提供了一个综合的解决方案，将复杂的模型架构与创新的预训练策略结合起来，有效解决了真实场景中人类舞蹈生成的挑战。

以下展示了生成的图像/视频以及与人类舞蹈生成的最先进技术的比较。

遇见DISCO：一种新颖的人类舞蹈生成的AI技术四海第4张 — https://arxiv.org/abs/2307.00040

这是关于DISCO的摘要，一种生成人类舞蹈的新型人工智能技术。如果您感兴趣并想了解更多关于这项工作的信息，可以通过下面的链接找到更多信息。