“认识MultiDiffusion：一种统一的人工智能框架，利用预训练的文本到图像扩散模型实现多功能和可控的图像生成”

“认识MultiDiffusion：一种统一的人工智能框架，利用预训练的文本到图像扩散模型实现多功能和可控的图像生成” 四海第1张

虽然扩散模型现在被认为是最先进的文本到图像生成模型，但它们已经成为一种“颠覆性技术”，具有以前从未听说过的能力，可以从文本提示中创建高质量、多样化的图片。尽管这一进展在改变用户如何创建数字内容方面具有重大潜力，但给用户对所创建材料的直观控制能力仍然是一个挑战。

目前，有两种调整扩散模型的技术：(i) 从头开始训练一个模型，或者(ii) 对现有的扩散模型进行微调以适应当前任务。即使在微调的情况下，由于模型和训练数据的不断增加，这种策略通常需要大量的计算和漫长的开发周期。而(ii) 重用已经训练过的模型，并增加一些受控的生成能力。一些技术先前专注于特定任务并创建了一种专门的方法。本研究旨在生成MultiDiffusion，这是一个新的、统一的框架，极大地提高了预先训练的(参考)扩散模型对受控图像生成的适应性。

“认识MultiDiffusion：一种统一的人工智能框架，利用预训练的文本到图像扩散模型实现多功能和可控的图像生成” 四海第3张 — 图1：MultiDiffusion使得灵活的文本到图像生成成为可能，它统一了对所创建内容的许多控制，如所需的长宽比或基于粗略区域的文本提示。

MultiDiffusion的基本目标是设计一个新的生成过程，其中包含多个参考扩散生成过程，这些过程通过一组共同的特征或约束连接起来。生成结果的各个区域都经过参考扩散模型，该模型更具体地为每个区域预测去噪采样步骤。然后，MultiDiffusion执行全局去噪采样步骤，使用最小二乘最佳解来协调所有这些单独的阶段。例如，考虑使用在方形图像上训练的参考扩散模型创建具有任何长宽比的图片的挑战(见下图2)。

“认识MultiDiffusion：一种统一的人工智能框架，利用预训练的文本到图像扩散模型实现多功能和可控的图像生成” 四海第4张 — 图2：MultiDiffusion：在预先训练的参考模型Φ上定义了一个新的生成过程Ψ。从噪声图像JT开始，每个生成步骤都会解决一个优化任务，其目标是每个裁剪Fi(Jt)尽可能接近其去噪版本Φ(Fi(Jt))。请注意，虽然每个去噪步骤Φ(Fi(Jt))可能朝着不同的方向拉动，但它们的过程将这些不一致的方向融合成一个全局去噪步骤Φ(Jt)，从而产生高质量的无缝图像。

MultiDiffusion将参考模型在去噪过程的每个阶段提供的方形裁剪的去噪方向合并在一起。它尽可能地跟随它们，尽管受到共享像素的相邻裁剪的限制。尽管每个裁剪可能会在去噪时拉动到不同的方向，但应注意的是，他们的框架会产生一个单一的去噪阶段，从而产生高质量且无缝的图片。我们应该要求每个裁剪都代表参考模型的真实样本。

使用MultiDiffusion，他们可以将预先训练的参考文本到图像模型应用于各种任务，例如生成具有特定分辨率或长宽比的图片，或者从不可读的基于区域的文本提示生成图像，如图1所示。值得注意的是，他们的架构通过利用共享的开发过程同时解决了这两个任务。通过将其与相关基准进行比较，他们发现他们的方法在控制生成质量方面甚至可以达到最先进的水平，而无需增加计算负担。完整的代码库将很快在他们的Github页面上发布。您也可以在他们的项目页面上查看更多演示。