人工智能内容生成的快速发展,尤其是在文本到图像(T2I)模型领域,引领了高质量、多样化和创意丰富的人工智能生成内容的新时代。然而,一个重要的局限仍然存在,即通过自然语言描述与这些先进的T2I模型有效沟通,使非专业人士能够获得引人入胜的图像变得具有挑战性。
T2I模型中的最先进方法,如稳定扩散法,擅长从文本提示中生成高质量图像。然而,它们要求用户创建具有词组合、魔术标签和注释的复杂提示,限制了这些模型的用户友好性。此外,现有的T2I模型在对自然语言的理解方面仍然存在限制,导致用户需要掌握模型的特定语言才能进行有效的交流。另外,T2I管道中的文本和数字配置多样,如词权重、负向提示和风格关键字,对非专业用户而言可能很复杂。
为应对这些局限,中国的一个研究团队最近发表了一篇新论文,介绍了一种称为“交互式文本到图像”(iT2I)的创新方法。这种方法使用户能够与大型语言模型(LLM)进行多轮对话,让他们能够通过自然语言迭代地指定图像需求、提供反馈和建议。
iT2I方法利用提示技术和现成的T2I模型来增强LLM在图像生成和精炼方面的能力。它通过消除复杂的提示和配置来显著提高用户友好性,使非专业用户也能轻松使用。
iT2I方法的主要贡献在于引入交互式文本到图像(iT2I)作为一种创新方法,实现用户与AI代理之间的多轮对话,用于交互式图像生成。iT2I可以确保视觉一致性,与语言模型具有可组合性,并支持图像生成、编辑、选择和精炼的各种指令。该论文还提出了一种增强LLM在iT2I方面的方法,并强调了它在内容生成、设计和交互叙事方面的适用性,从而改善了从文本描述生成图像的用户体验。此外,该提议的技术可以轻松集成到现有的LLM中。
为了评估此方法的效果,作者进行了一系列实验,评估了其对LLM能力的影响,比较了不同LLM,并提供了各种情景的实际iT2I示例。实验考虑了iT2I提示对LLM能力的影响,并证明其只产生了轻微的退化。商业LLM成功生成了相应的图像和文本响应,而开源LLM则显示出不同程度的成功。实际示例展示了单轮和多轮图像生成以及交错的文本-图像叙事,突出了系统的能力。
总而言之,该论文介绍了一种交互式文本到图像(iT2I)方法,这是人工智能内容生成的重要进步。这种方法实现了用户与AI代理之间的多轮对话,使图像生成变得用户友好。iT2I增强了语言模型的能力,确保了图像的一致性,并支持各种指令。实验结果显示,对语言模型性能影响较小,使iT2I成为人工智能内容生成领域的一项有前途的创新。