Press "Enter" to skip to content

微软Azure人工智能推出Idea2Img:自筹资金的多模态人工智能框架,用于自动开发和设计图像

“图像设计与生成”的目标是根据用户提供的广泛概念生成一幅图像。这个输入的概念可能包括参考图像,例如“狗看起来像图中的那只”,或者进一步定义设计意图应用的指示说明,例如“用于Idea2Img系统的标志”。人们可以利用文本到图像(T2I)模型根据对想象图像(IDEA)的详细描述创建图片,用户必须手动探索多个选项,直到找到最能描述问题(T2I提示)的一个。

鉴于大型多模态模型(LMM)的令人印象深刻的能力,研究人员调查了我们是否可以基于LMM进行训练,使系统具备相同的迭代自我完善能力,从而使人们摆脱将概念转化为视觉图像的繁重任务。在涉足未知领域或处理困难任务时,人类有自然的倾向不断提升他们的方法。大型语言模型(LLM)代理系统表明了利用自我完善可以更好地解决缩写生成、情感检索、基于文本的环境探索等自然语言处理任务。当我们从纯文本活动转向多模态设置时,会出现增强、评估和验证多模态内容(如多个交错的图像-文本序列)的挑战。

自我探索使LMM框架能够自动学习解决各种现实挑战,例如使用图形用户界面(GUI)与数字设备进行交互,带领体验代理穿越未知领域,玩数字游戏等。微软Azure的研究人员通过将“图像设计与生成”作为任务来研究迭代自我完善的多模态能力。为此,他们提出了Idea2Img,一种自我完善的多模态框架,用于自动开发和设计图像。LMM GPT-4V(vision)与Idea2Img中的T2I模型进行交互,以对模型的应用进行调查,并确定一个有用的T2I线索。LMM将处理T2I模型的返回信号(草案图像)的分析以及创建后续回合的查询(文本T2I提示)。

T2I提示生成、草案图像选择和反馈反思都有助于多模态的迭代自我完善能力。具体而言,GPT-4V执行以下步骤:

  1. 提示生成:GPT-4V生成N个文本提示,这些提示与输入的多模态用户IDEA相对应,条件是先前的文本反馈和完善历史
  2. 草案图像选择:GPT-4V仔细比较相同IDEA的N个草案图像,并选择最有前途的一个
  3. 反馈反思:GPT-4V分析草案图像与IDEA之间的差异。然后,GPT-4V就出了什么问题,为什么出了问题以及T2I提示如何改进给出反馈。

此外,Idea2Img还具有内置的记忆模块,可跟踪每种提示类型(图片、文本和反馈)的探索历史。对于自动图像创建和生成,Idea2Img框架在这三个基于GPT-4V的过程之间反复循环。作为改进的图片设计和创作助手,Idea2Img是用户的有用工具。通过接受设计方向而不是详细的图片描述,适用于多模态的IDEA输入,并生成具有更高语义和视觉质量的图像,Idea2Img在T2I模型中脱颖而出。

团队回顾了一些图片创建和设计的示例案例。例如,Idea2Img可以处理任意交错的图片-文本序列的IDEA,将视觉设计和预期用途描述整合到IDEA中,并从输入的图像中提取任意的视觉信息。基于这些更新的特性和用例,他们创建了一个包含复杂问题的104个样本评估IDEA集,这些问题人们在第一次可能会回答错误。团队使用Idea2Img和各种T2I模型进行用户偏好研究。用户偏好分数在许多图像生成模型中的提高,例如与SDXL相比增加了26.9%,显示了Idea2Img在这一领域的功效。

Leave a Reply

Your email address will not be published. Required fields are marked *