Press "Enter" to skip to content

一种扩散规则扩散:调节预训练扩散模型用于多模态图像合成

一种扩散规则扩散:调节预训练扩散模型用于多模态图像合成 四海 第1张一种扩散规则扩散:调节预训练扩散模型用于多模态图像合成 四海 第2张

图像生成AI模型在过去几个月里席卷了领域。你可能听说过中途、DALL-E、ControlNet或Stable dDiffusion。这些模型能够根据给定的提示生成逼真的照片,无论给定的提示有多奇怪。你想看到皮卡丘在火星上跑来跑去吗?随便找一个这些模型,让它为你做,你就能得到。

现有的扩散模型依赖于大规模的训练数据。当我们说大规模时,是真的很大。例如,Stable Diffusion本身是在超过25亿个图像-标题对上进行训练的。所以,如果你计划在家里训练自己的扩散模型,你可能要重新考虑一下,因为训练这些模型在计算资源方面非常昂贵。

另一方面,现有的模型通常是无条件的,或者以文本提示等抽象格式为条件。这意味着它们在生成图像时只考虑一个单一的因素,并且无法传递像分割图这样的外部信息。结合它们对大规模数据集的依赖,意味着大规模生成模型在我们没有大规模数据集进行训练的领域中的适用性受到限制。

克服这种限制的一种方法是针对特定领域对预训练模型进行微调。然而,这需要访问模型参数和大量的计算资源来计算整个模型的梯度。此外,微调一个完整的模型限制了它的适用性和可扩展性,因为每个新的领域或模态组合都需要新的全尺寸模型。此外,由于这些模型的体积庞大,它们往往很快就会过度拟合到它们进行微调的较小数据子集上。

也可以从头开始训练模型,并根据所选择的模态进行调节。但同样,这受限于训练数据的可用性,并且从头训练模型非常昂贵。另一方面,人们试图在推理时引导预训练模型朝着期望的输出方向发展。他们使用来自预训练分类器或CLIP网络的梯度,但这种方法会减慢模型的采样速度,因为它在推理过程中增加了很多计算。

如果我们能够使用任何现有的模型,并在不需要非常昂贵的过程的情况下对其进行调节,那么该怎么办呢?如果我们不去繁琐而耗时的改变扩散模式,它是否仍然可以被调节?答案是肯定的,让我来向你介绍。

一种扩散规则扩散:调节预训练扩散模型用于多模态图像合成 四海 第3张
多模态调节模块的用例。来源:https://arxiv.org/pdf/2302.12764.pdf

所提出的方法,多模态调节模块(MCM),是一个可以集成到现有扩散网络中的模块。它使用一个小型的类似扩散网络的网络,在每个采样时间步骤上训练,以调节原始扩散网络的预测,使生成的图像符合提供的条件。

MCM不需要对原始扩散模型进行任何形式的训练。唯一需要训练的是调节网络,它是小规模的,训练起来不昂贵。这种方法在计算上效率高,所需的计算资源比从头开始训练扩散网络或微调现有扩散网络要少,因为它不需要为大型扩散网络计算梯度。

此外,MCM即使在没有大量训练数据的情况下也能很好地泛化。它不会减慢推理过程,因为不需要计算梯度,唯一的计算开销来自运行小型扩散网络。

一种扩散规则扩散:调节预训练扩散模型用于多模态图像合成 四海 第4张
所提出的调节流程概述。来源:https://arxiv.org/pdf/2302.12764.pdf

通过引入多模态调节模块,图像生成的控制能力得到增强,可以对附加的模态进行调节,例如分割图或素描。该方法的主要贡献是引入多模态调节模块,一种适应预训练扩散模型进行有条件图像合成的方法,不改变原始模型的参数,并且在成本更低、内存使用更少的情况下实现高质量和多样化的结果,而不是从头开始训练或微调一个大模型。

查看论文项目。这项研究的所有功劳归功于该项目上的研究人员。还请不要忘记加入我们的26k+ ML SubReddit、Discord频道和电子邮件通讯,我们在其中分享最新的人工智能研究新闻、酷炫的人工智能项目等等。

使用Tensorleap的可解释性平台揭示深度学习的奥秘

本文由MarkTechPost发布,标题为《一次扩散控制所有扩散:调节预训练扩散模型进行多模态图像合成》。

Leave a Reply

Your email address will not be published. Required fields are marked *