CMU研究人员提出了GILL：一种将LLM与图像编码器和解码器模型融合的AI方法

CMU研究人员提出了GILL：一种将LLM与图像编码器和解码器模型融合的AI方法四海第1张

随着OpenAI发布的全新GPT 4的问世，大型语言模型中引入了多模态。与之前的版本GPT 3.5不同，该版本不仅可以接受文本输入，还可以接受图像输入。最近，来自卡内基梅隆大学的研究团队提出了一种称为Generating Images with Large Language Models (GILL)的方法，该方法专注于扩展多模态语言模型以生成一些独特的图像。

GILL方法使得可以处理混合了图像和文本的输入，并生成文本、检索图像和创建新图像。尽管模型使用了不同的文本编码器，GILL通过将仅包含文本的冻结语言模型的输出嵌入空间转移到冻结的图像生成模型的嵌入空间来实现这一点。与需要交错图像-文本数据的其他方法不同，该映射是通过利用图像标题的配对来微调少量参数来完成的。

研究团队提到，该方法将已经训练好的用于冻结文本的大型语言模型与图像编码和解码模型相结合。它可以提供各种多模态功能，例如图像检索、独特图像生成和多模态对话。这是通过将模态的嵌入空间进行映射以进行融合来实现的。GILL可以处理混合图像和文本输入的条件，并生成既连贯又可读的输出。

该方法提供了一个有效的映射网络，将LLM与文本到图像生成模型相关联，以在图片生成方面获得出色的性能。该映射网络将隐藏的文本表示转换为视觉模型的嵌入空间。通过这样做，它利用了LLM强大的文本表示能力来生成具有美学一致性的输出。

通过这种方法，模型不仅可以从指定数据集中检索图像，还可以创建新的图像。模型在推理时选择是生成还是获取图像。该选择是基于LLM的隐藏表示条件的学习决策模块进行的。这种方法在计算上非常高效，因为它在训练时无需运行图像生成模型。

与基准生成模型相比，该方法在需要更长、更复杂的语言的任务中表现更好。相比之下，GILL在处理较长的文本（包括对话和篇章）方面优于稳定扩散方法。GILL在对话条件下的图像生成方面比非LLM基础的生成模型表现更好，从多模态上下文中受益，并生成更符合给定文本的图像。与仅处理文本输入的传统文本到图像模型不同，GILL还可以处理任意交错的图像-文本输入。

总之，Generating Images with Large Language Models (GILL)似乎比以前的多模态语言模型具有更广泛的能力。它在衡量上下文依赖性的各种文本到图像任务中优于非LLM基础的生成模型，使其成为多模态任务的强大解决方案。