概率扩散模型是一种前沿的生成模型类别,在计算机视觉相关任务中成为研究领域的关键点。与其他类别的生成模型(如变分自动编码器、生成对抗网络和向量量化方法)不同,扩散模型引入了一种新的生成范式。这些模型利用固定的马尔可夫链映射潜在空间,实现了捕捉数据集内潜在结构复杂性的复杂映射。最近,它们令人印象深刻的生成能力,从高度细节的生成示例到多样性,推动了在图像合成、图像编辑、图像到图像的翻译和文本到视频生成等各种计算机视觉应用中的突破性进展。
扩散模型由两个主要组成部分组成:扩散过程和去噪过程。在扩散过程中,高斯噪声逐渐加入输入数据,逐渐将其转化为几乎纯高斯噪声。相反,去噪过程旨在使用一系列学习到的逆扩散操作,从噪声状态中恢复原始输入数据。通常,一个U-Net用于在每个去噪步骤中迭代预测噪声去除。现有的研究主要集中在使用预训练的扩散U-Net进行下游应用,对扩散U-Net的内部特性探索有限。
来自S实验室和南洋理工大学的一项联合研究离开了传统的扩散模型应用,研究了扩散U-Net在去噪过程中的有效性。为了对去噪过程有更深入的理解,研究人员引入了一个重点关注傅立叶域的新思路,观察扩散模型的生成过程——这是一个相对未被探索的研究领域。
上图显示了顶部行中的逐步去噪过程,展示了连续迭代中生成的图像。相反,下面的两行展示了对应每个步骤的逆傅里叶变换后的低频和高频空间域信息。这个图表展示了低频分量的逐渐调制,表明了一个抑制的变化速率,而高频分量在整个去噪过程中表现出更明显的动态。这些发现可以直观地解释:低频分量固有地代表了图像的全局结构和特征,包括全局布局和平滑的颜色。对这些分量的剧烈改变通常在去噪过程中是不合适的,因为它们可以从根本上改变图像的本质。另一方面,高频分量捕捉图像中的快速变化,如边缘和纹理,并且对噪声非常敏感。去噪过程必须去除噪声同时保留这些复杂的细节。
考虑到关于低频和高频分量在去噪过程中的观察,该研究扩展到确定扩散框架中U-Net架构的具体贡献。在U-Net解码器的每个阶段,通过跳跃连接和主干特征组合跳过特征。研究表明,U-Net的主干在去噪过程中起着重要作用,而跳跃连接在解码器模块中引入了高频特征,有助于恢复细粒度的语义信息。然而,这种高频特征的传播可能会在推断阶段无意中削弱主干的本质去噪能力,可能导致生成异常图像细节,如图1的第一行所示。
基于这一发现,研究人员提出了一种新的方法,称为 “FreeU”,可以在不需要额外的训练或微调的情况下提高生成样本的质量。下面是该框架的概述。
在推理阶段,引入了两个专门的调制因子来平衡来自主要主干和U-Net架构的跳跃连接的特征的贡献。第一个因子被称为“主干特征因子”,旨在放大主要主干的特征图,从而加强去噪过程。然而,观察到,包括主干特征缩放因子时,虽然在改善方面取得了显著的改进,但有时会导致不希望的纹理过度平滑化。为了解决这个问题,引入了第二个因子“跳跃特征缩放因子”,以减轻纹理过度平滑化问题。
FreeU框架在与现有的扩散模型集成时表现出无缝适应性,包括文本到图像生成和文本到视频生成等应用。使用基础模型,如稳定扩散、DreamBooth、ReVersion、ModelScope和Rerender进行了全面的实验评估,以进行基准比较。当在推理阶段应用FreeU时,这些模型在生成的输出质量上显示出显着的提高。下面的插图提供了FreeU在显著改进生成图像的复杂细节和整体视觉保真度方面的有效性的证据。
这是FreeU的概述,这是一种新颖的人工智能技术,可以在没有额外训练或微调的情况下提高生成模型的输出质量。如果您感兴趣并且想了解更多信息,请随时参考下面列出的链接。