“认识Mini-DALLE3 通过提示大型语言模型实现交互式文本生成图像的方法”

人工智能内容生成的快速发展，尤其是在文本到图像（T2I）模型领域，引领了高质量、多样化和创意丰富的人工智能生成内容的新时代。然而，一个重要的局限仍然存在，即通过自然语言描述与这些先进的T2I模型有效沟通，使非专业人士能够获得引人入胜的图像变得具有挑战性。

T2I模型中的最先进方法，如稳定扩散法，擅长从文本提示中生成高质量图像。然而，它们要求用户创建具有词组合、魔术标签和注释的复杂提示，限制了这些模型的用户友好性。此外，现有的T2I模型在对自然语言的理解方面仍然存在限制，导致用户需要掌握模型的特定语言才能进行有效的交流。另外，T2I管道中的文本和数字配置多样，如词权重、负向提示和风格关键字，对非专业用户而言可能很复杂。

为应对这些局限，中国的一个研究团队最近发表了一篇新论文，介绍了一种称为“交互式文本到图像”（iT2I）的创新方法。这种方法使用户能够与大型语言模型（LLM）进行多轮对话，让他们能够通过自然语言迭代地指定图像需求、提供反馈和建议。

iT2I方法利用提示技术和现成的T2I模型来增强LLM在图像生成和精炼方面的能力。它通过消除复杂的提示和配置来显著提高用户友好性，使非专业用户也能轻松使用。

iT2I方法的主要贡献在于引入交互式文本到图像（iT2I）作为一种创新方法，实现用户与AI代理之间的多轮对话，用于交互式图像生成。iT2I可以确保视觉一致性，与语言模型具有可组合性，并支持图像生成、编辑、选择和精炼的各种指令。该论文还提出了一种增强LLM在iT2I方面的方法，并强调了它在内容生成、设计和交互叙事方面的适用性，从而改善了从文本描述生成图像的用户体验。此外，该提议的技术可以轻松集成到现有的LLM中。

为了评估此方法的效果，作者进行了一系列实验，评估了其对LLM能力的影响，比较了不同LLM，并提供了各种情景的实际iT2I示例。实验考虑了iT2I提示对LLM能力的影响，并证明其只产生了轻微的退化。商业LLM成功生成了相应的图像和文本响应，而开源LLM则显示出不同程度的成功。实际示例展示了单轮和多轮图像生成以及交错的文本-图像叙事，突出了系统的能力。

总而言之，该论文介绍了一种交互式文本到图像（iT2I）方法，这是人工智能内容生成的重要进步。这种方法实现了用户与AI代理之间的多轮对话，使图像生成变得用户友好。iT2I增强了语言模型的能力，确保了图像的一致性，并支持各种指令。实验结果显示，对语言模型性能影响较小，使iT2I成为人工智能内容生成领域的一项有前途的创新。