

在生成模型中,扩散模型(DMs)扮演了关键角色,促进了在生成高品质图片和视频合成方面的最新进展。可扩展性和迭代性是DMs的两个主要优势;它们使其能够完成诸如根据自由文本线索创建图片等复杂任务。不幸的是,目前迭代推理过程所需的许多样本步骤阻碍了DMs的实时使用。另一方面,生成对抗网络(GANs)的单步形式和固有速度使其独具特色。然而,就样本质量而言,尽管已经做出扩展到大数据集的努力,GANs通常仍然需要更多DMs。
在这项研究中,来自Stability AI的研究人员旨在将GANs的固有速度与DMs的较高样本质量相结合。他们的策略在概念上很简单:研究团队提出Adversarial Diffusion Distillation(ADD),这是一种保持对抽样保真度的通用技术,可以通过将预训练的扩散模型的推理步骤减少到1-4个抽样步骤来增强模型的整体性能。研究团队结合了两个训练目标:(i)等同于评分蒸馏抽样(SDS)的蒸馏损失和敌对损失。
在每次前向传播中,敌对损失鼓励模型直接生成位于实际图片流形上的样本,消除了其他蒸馏技术中常见的模糊等伪影。为了保留大型DMs中所见到的高度组合性并有效利用预训练DM的大量知识,蒸馏损失使用另一个预先训练的(且固定的)DM作为教师。他们的方法还通过在推理过程中不使用无分类器的指导来减少内存需求。与早期的单步GAN-based方法相比,研究团队可以继续迭代开发模型并改善结果。
以下是他们的贡献摘要:
• 研究团队提出了ADD,一种仅需1-4个抽样步骤将预训练的扩散模型转换为高保真度、实时图片生成器的技术。研究团队针对他们独特的方法进行了几个设计决策,将敌对训练与评分蒸馏相结合。
• ADD-XL在使用四个抽样步骤时,在5122像素的分辨率下胜过其教师模型SDXL-Base。• ADD可以处理复杂的图像合成,同时仅使用一次推理步骤保持高度逼真。• ADD在性能上明显优于LCM、LCM-XL和单步GANs等强基准。
总之,本研究引入了一种将预训练的扩散模型蒸馏为快速、少步骤的图片生成模型的通用技术:Adversarial Diffusion Distillation。通过使用鉴别器获取真实数据并通过扩散教师获取结构知识,研究团队将敌对训练和评分蒸馏目标相结合,以蒸馏公共的Stable Diffusion和SDXL模型。他们的分析显示,他们的技术击败了所有现有方法,并且在一到两个步骤的超快抽样区间中表现得特别好。此外,研究团队还可以通过多个过程改进样本。与IF、SDXL和OpenMUSE等流行的多步生成器相比,他们的模型在使用四个样本步骤时表现更好。他们的方法为使用基础模型进行实时生成开辟了新的可能性,使得能够在单一步骤中开发高品质照片成为可能。