苹果研究人员推出了Matryoshka扩散模型（MDM）：一种用于高分辨率图像和视频合成的端到端人工智能框架

在近期，大型语言模型展示了惊人的能力。其中扩散模型尤其广泛用于多种生成应用，包括3D建模、文本生成、图像和视频生成。尽管这些模型适用于各种任务，但在处理高分辨率数据时会遇到很大的困难。由于每个步骤都需要重新对整个高分辨率输入进行编码，因此将它们扩展到高分辨率需要大量的计算资源和内存。

为了克服这些问题，研究人员经常使用具有注意力机制的深度架构来进行处理，尽管这样会增加计算和内存需求，并且使优化变得复杂。研究人员一直在努力开发有效的网络设计来处理高分辨率照片。然而，当前的方法在输出质量上不及DALL-E 2和IMAGEN等标准技术，并且在512×512分辨率之上尚未展示出竞争力。

这些广泛使用的技术通过合并许多独立训练的超分辨扩散模型与低分辨率模型来减少计算量。相反，潜在扩散方法（LDMs）依赖于经过单独训练的高分辨率自编码器，只训练低分辨率扩散模型。这两种策略都需要使用多阶段的流程和精细的超参数优化。

在最近的研究中，苹果的研究团队提出了万花筒扩散模型（MDM），这是一系列为端到端高分辨率图像和视频合成而设计的扩散模型。MDM的思想是将低分辨率扩散过程作为高分辨率生成的关键组成部分。该方法受到了生成对抗网络（GANs）多尺度学习的启发，团队通过使用嵌套的 UNet 架构，在多个分辨率上进行联合扩散过程。

该方法的一些主要组成部分如下所示。

多分辨率扩散过程：MDM使用嵌套的 UNet 架构，同时对多个分辨率的输入进行去噪处理，从而能够同时处理和生成具有不同细节级别的图像。

嵌套 UNet 架构：嵌套的 UNet 架构将较小尺度的输入特征和参数嵌套在较大尺度的输入特征和参数中。通过这种嵌套，可以有效地在各个尺度上共享信息，提高模型在捕捉细节特征时的能力，同时保持计算效率。

渐进式训练计划：MDM提出了一个逐渐提高分辨率的训练计划，从较低分辨率开始。使用这种训练方法，可以增强优化过程，并使模型更好地学习如何生成高分辨率内容。

团队通过一系列基准测试来分享这种方法的性能和效果，例如文本到视频应用、高分辨率文本到图像生成和条件图片生成。MDM已经证明可以训练一个像素级模型，分辨率高达1024×1024像素。考虑到这一成就是使用相对较小的数据集（CC12M）实现的，该数据集只包含1200万张照片，这是非常令人瞩目的。MDM展示出鲁棒的零样本泛化能力，使其能够为其未经专门训练的分辨率生成高质量信息。总而言之，万花筒扩散模型（MDM）代表了高分辨率图像和视频合成领域的重大进步。