微软研究员提出NUWA-XL：一种用于极长视频生成的新型扩散过扩散架构

微软研究员提出NUWA-XL：一种用于极长视频生成的新型扩散过扩散架构四海第1张

生成模型领域近年来对视觉合成产生了浓厚的兴趣。之前的工作已经可以实现高质量的图像生成。然而，与照片相比，视频的持续时间在实际应用中面临更大的困难。一部特技电影的平均播放时间超过90分钟，一部动画片的平均长度为30分钟。TikTok或其他类似应用上的视频理想长度为21至34秒。

微软的研究团队开发了一种创新的架构用于制作长视频。现有的大多数工作是按照片段的顺序逐个生成长电影，这通常导致在短片训练和推断大视频之间存在差距。顺序生成可能更加高效。这种新颖的方法采用了一种由粗到细的过程，在相同的粒度上同时生成视频；首先应用全局扩散模型生成范围广泛的关键帧，然后使用局部扩散模型迭代地填充相邻帧之间的内容。通过直接在长电影上进行训练，可以缩小训练和推断之间的差距，并且可以使用这种简单但成功的方法同时生成所有部分。

最重要的贡献如下：

研究团队提出了“扩散过扩散”架构NUWA-XL，将长视频的创建视为一种革命性的“由粗到细”的过程。
NUWA-XL是第一个直接训练在长电影（3376帧）上的模型，弥合了生成这种视频的训练和推断之间的差距。
NUWA-XL实现了并行推断，大大缩短了生成长视频所需的时间。在生成1024帧的情况下，NUWA-XL将推断加速了94.26%。
为了确保模型的有效性并为扩展视频创作提供标准，FlintstonesHD的研究团队创建了一个名为FlintstonesHD的新数据集。

方法

时间KLVAE（T-KLVAE）

KLVAE将输入图像转换为低维潜在表示，在应用扩散过程之前，以避免直接在像素上训练和采样扩散模型的计算负担。研究人员通过增加原始空间模块与外部时间卷积和注意力层来提出时间KLVAE（T-KLVAE），以将预训练的图像KLVAE的表面知识转移到视频中。

时间掩蔽扩散（MTD）

作为提出的扩散过扩散架构的基础扩散模型，研究人员提出了时间掩蔽扩散（MTD）。虽然电影的“粗糙”故事情节仅由L个提示组成，用于全局扩散，但开头和最后的帧也被用作局部扩散的输入。建议的MTD兼容全局和局部扩散，并且可以接受具有或不具有开头和最后帧的输入条件。接下来，他们在使用UpBlock来说明各种输入条件融合之前，完整地阐述了MTD的流程。

尽管提出的NUWA-XL提高了扩展视频创建的质量并加快了推断速度，但仍存在一些限制：首先，研究人员只验证了NUWA-XL在公开可用的Flintstones卡通上的有效性，因为尚不清楚开放域长视频（如电影和电视剧集）。他们希望通过在创建开放域长视频数据集的初步成功后，最终将NUWA-XL扩展到开放域。其次，通过在长电影上进行直接训练，可以缩小训练和推断之间的差距，但这对于数据来说是一个巨大的障碍。最后，尽管NUWA-XL可以加速推断，但这种改进需要强大的图形处理单元（GPU）来实现并行推断。

研究人员提出了NUWA-XL，一种“扩散过扩散”架构，将创建长视频视为一种非传统的“由粗到细”的过程。NUWA-XL是第一个直接训练在长电影（3376帧）上的模型，弥合了长视频制作中的训练和推断之间的差距。NUWA-XL支持并行推断，可以在生成1024帧的同时将长视频的创建速度加快94.26%。为了进一步验证模型的有效性并为扩展视频创作提供基准，他们构建了一个名为FlintstonesHD的新数据集。