“遇见DenseDiffusion：一种无需训练的人工智能技术，用于解决文本到图像生成中的密集描述和布局操作问题”

“遇见DenseDiffusion：一种无需训练的人工智能技术，用于解决文本到图像生成中的密集描述和布局操作问题” 四海第1张

最近，文本到图像模型的进展使得能够根据简短的场景描述生成高质量图像的复杂系统成为可能。然而，这些模型在面对复杂的标题时遇到困难，通常导致不同对象的视觉属性的遗漏或混合。在这一背景下，“密集”一词源于密集字幕的概念，其中利用单独的短语来描述图像中的特定区域。此外，用户在仅使用文本提示的情况下，在生成的图像中精确指定元素的排列也面临挑战。

最近的几项研究提出了通过训练或改进基于布局的文本到图像模型的解决方案，以赋予用户空间控制能力。虽然像“Make-aScene”和“Latent Diffusion Models”这样的特定方法从头开始构建具有文本和布局条件的模型，但其他同时进行的方法，如“SpaText”和“ControlNet”，通过微调将附加的空间控制引入现有的文本到图像模型。不幸的是，训练或微调模型可能需要大量计算资源。此外，模型需要为每个新颖的用户条件、领域或基本文本到图像模型重新训练。

基于上述问题，提出了一种名为DenseDiffusion的新型无训练技术，以适应密集字幕并提供布局操作。

在介绍主要思想之前，让我简要回顾扩散模型的工作原理。扩散模型通过顺序去噪步骤生成图像，从随机噪声开始。噪声预测网络估计添加的噪声并尝试在每个步骤中呈现更清晰的图像。最近的模型通过减少去噪步骤的数量，以更快的速度生成结果，而不会显著损害生成的图像。

最先进的扩散模型中有两个重要的模块，即自注意力和交叉注意力层。

在自注意力层中，中间特征还可以作为上下文特征。这通过在不同区域涵盖图像令牌之间建立连接来实现全局一致的结构的创建。同时，交叉注意力层根据从输入文本标题中获取的文本特征进行自适应，使用CLIP文本编码器进行编码。

回到主题上，DenseDiffusion的主要思想是修订的注意力调节过程，如下图所示。

“遇见DenseDiffusion：一种无需训练的人工智能技术，用于解决文本到图像生成中的密集描述和布局操作问题” 四海第3张

首先，对预训练的文本到图像扩散模型的中间特征进行审查，以揭示生成图像的布局与自注意力和交叉注意力图之间的显著相关性。根据这一见解，基于布局条件动态调整中间注意力图。此外，该方法还考虑了原始注意力评分范围，并根据每个区域的面积微调调节程度。在展示的工作中，作者展示了DenseDiffusion提高了“稳定扩散”模型的性能，并在密集字幕、文本和布局条件以及图像质量方面超过多个组合扩散模型。

以下图片显示了从研究中选择的样本结果。这些视觉效果提供了DenseDiffusion和最先进方法之间的比较概述。

“遇见DenseDiffusion：一种无需训练的人工智能技术，用于解决文本到图像生成中的密集描述和布局操作问题” 四海第4张

这是DenseDiffusion的概要，这是一种新的无训练的AI技术，用于适应密集字幕并在文本到图像合成中提供布局操作。