颠覆性的文本到图像合成：加州大学伯克利分校研究人员利用大型语言模型，在两阶段生成过程中增强了空间和常识推理能力

颠覆性的文本到图像合成：加州大学伯克利分校研究人员利用大型语言模型，在两阶段生成过程中增强了空间和常识推理能力计算科学第1张

最近，文本到图像生成方面取得了一些进展，出现了可以合成高度逼真和多样化图像的扩散模型。然而，尽管这些模型具有令人印象深刻的能力，像Stable Diffusion这样的扩散模型在需要空间或常识推理的提示方面仍然需要帮助，导致生成的图片不准确。

为了解决这个挑战，加州大学伯克利分校和加州大学旧金山分校的研究团队提出了一种新的基于LLM的扩散（LMD）方法，可以增强文本到图像生成中的提示理解。他们已经确定了场景，包括否定、数字、属性分配和空间关系，在这些场景中，Stable Diffusion与LMD相比存在不足。

研究人员采用了一种成本效益的解决方案，避免了训练大型语言模型（LLMs）和扩散模型的昂贵和耗时过程。他们将现成的冻结LLMs集成到扩散模型中，形成了一个两阶段的生成过程，提供了增强的空间和常识推理能力。

在第一阶段，LLM被调整为文本引导的布局生成器，通过上下文学习。当给出一个图像提示时，LLM会产生一个由边界框和相应描述组成的场景布局。在第二阶段，扩散模型通过使用一个新颖的控制器来生成图像，由生成的布局进行引导。两个阶段都使用冻结的预训练模型，没有对LLM或扩散模型进行任何参数优化。

LMD除了改进提示理解外，还提供了几个优点。它可以实现基于对话的多轮场景规定，允许用户为每个提示提供额外的澄清和修改。此外，LMD可以处理不受基础扩散模型支持的语言提示。通过将支持多轮对话的LLM纳入其中，用户可以在初始布局生成后查询LLM，并为随后的图像生成接收更新的布局，便于请求添加对象或更改它们的位置或描述等。

此外，通过在上下文学习过程中提供非英语提示的示例和英语布局和背景描述，LMD接受非英语提示，即使基础扩散模型不支持给定的语言也能生成带有英语描述的布局。

研究人员通过与LMD利用的基础扩散模型Stable Diffusion 2.1进行比较，验证了LMD的优越性。他们邀请读者探索他们的工作，进行全面评估和进一步比较。

总之，LMD提出了一种新的方法，以解决扩散模型在准确遵循需要空间或常识推理的提示方面的局限性。通过集成冻结LLMs并采用两阶段生成过程，LMD显著增强了文本到图像生成任务中的提示理解能力。它提供了其他功能，如基于对话的场景规定和处理不支持的语言提示。研究团队的工作为通过集成现成的冻结模型来改善合成图像的准确性和多样性开辟了新的可能性。