Press "Enter" to skip to content

该AI研究提出了Kosmos-G:一种通过利用多模型LLM的属性,从广义视觉语言输入中生成高保真零射影像的人工智能模型

最近,从文本描述中创建图像和将文本和图像结合生成新图像方面取得了重大进展。然而,一个未被探索的领域是从广义视觉-语言输入(例如,根据涉及多个对象和人的场景描述生成图像)中生成图像。微软研究(Microsoft Research),纽约大学(New York University)和滑铁卢大学(University of Waterloo)的研究人员团队介绍了名为KOSMOS-G的模型,它利用多模态LLM(Language and Vision Models)来解决这个问题。

KOSMOS-G能够从复杂的文本和多张图片的组合中创建详细的图像,即使它没有见过这些例子。这是第一个可以根据描述生成具有各种对象或事物的图像的模型。KOSMOS-G可以替代CLIP,为使用其他技术如ControlNet和LoRA提供了新的可能性。

KOSMOS-G使用了一种巧妙的方法从文本和图片生成图像。首先,它通过对训练一个多模态LLM(能够同时理解文本和图片)来与CLIP文本编码器(擅长理解文本)进行对齐。

当我们给KOSMOS-G一个带有文本和分割图片的标题时,它被训练为创建符合描述和遵循指示的图像。它通过使用预训练的图像解码器和利用从图片中学到的知识,在不同的情况下生成准确的图片。

KOSMOS-G可以根据指令和输入数据生成图像。它具有三个训练阶段。在第一阶段,模型在多模态语料库上进行预训练。第二阶段,通过CLIP监督训练一个AlignerNet,将KOSMOS-G的输出空间与U-Net的输入空间进行对齐。第三阶段,通过一个组合生成任务在策划数据上对KOSMOS-G进行微调。在第一阶段,只训练MLLM。在第二阶段,AlignerNet在MLLM冻结状态下进行训练。在第三阶段,AlignerNet和MLLM在一起进行训练。图像解码器在各个阶段始终保持冻结状态。

KOSMOS-G在不同设置下的零样本图像生成能力非常出色。它能够制作有意义、外观好且可以不同方式自定义的图像。它可以改变上下文,添加特定风格,进行修改,以及给图像添加额外细节等。KOSMOS-G是第一个在零样本设置下实现多实体VL2I的模型。

KOSMOS-G可以轻松取代图像生成系统中的CLIP。这为以前无法实现的应用程序开辟了令人兴奋的新可能性。借助CLIP的基础,KOSMOS-G有望推动从基于文本生成图像到基于文本和视觉信息的组合生成图像的转变,为许多创新应用提供机会。

总之,KOSMOS-G是一个可以从文本和多张图片中创建详细图像的模型。它在训练中采用了一种称为“在指示之前进行对齐”的独特策略。KOSMOS-G擅长制作单个对象的图像,并且是第一个能够处理多个对象的模型。它还可以替代CLIP,并与ControlNet和LoRA等其他技术结合使用,造就新的应用。简而言之,KOSMOS-G是朝着以图像生成语言的方向迈出的第一步。

Leave a Reply

Your email address will not be published. Required fields are marked *