Press "Enter" to skip to content

Google AI发布Imagen Editor和EditBench,以改进和评估文本引导图像修复技术

Google AI发布Imagen Editor和EditBench,以改进和评估文本引导图像修复技术 机器学习 第1张Google AI发布Imagen Editor和EditBench,以改进和评估文本引导图像修复技术 机器学习 第2张

最近,人们对文本到图像转换器产生了浓厚的兴趣。这些生成模型非常有用,尽管它们有时在第一次尝试时会产生错误的结果,特别是对于具有更特定创意或设计要求的客户。文本引导的图像编辑可以通过允许交互式修正来改进图像创建过程。生成符合文本提示并与输入图像兼容的修改是一个重大难题。Good的研究人员开发了Imgen Editor,这是一个使用文本指令进行修复的级联扩散模型。

Imgen Editor可以通过在训练期间使用对象检测器来提出修复掩模,从而准确地表示文本提示的修改。Imgen Editor可以通过将级联管道与原始高分辨率图像相结合,捕捉输入图像中最细微的特征。为了提高定量和定性评估,谷歌研究人员提供了EditBench,这是一个标准化的文本引导图像修复基准。EditBench通过检查真实和合成图像中的对象、属性和场景来分析修复修正。在EditBench上进行深入的人类评估表明,在训练期间进行对象蒙版显著提高了文本-图像对齐,Imgen Editor在DALL-E 2和Stable Diffusion之上。总的来说,这些模型比文本渲染更擅长对象渲染,比计数/形状属性更擅长处理材料/颜色/大小属性。

图像编辑器

要修改图像,请使用Imagen Editor,这是一种专门针对Imagen进行优化的基于扩散的模型。它致力于更准确地表示语言输入、粒度指令和高质量输出。Imagen Editor使用图像修改、二进制掩模以识别修改区域和文本提示这三个输入来确定输出样本。

图像编辑器允许用户根据掩模和一组指令对图像的某些区域进行有针对性的更改。该模型考虑用户的目标并对图像进行逼真的调整。Imagen Editor是一种文本引导的图像编辑器,它将广泛的语言表示与粒度控制混合在一起,以生成高质量的结果。Imagen Editor是Imagen的增强版,它使用级联扩散模型来微调文本引导的图像修复。使用三个卷积下采样图像编码器,Imagen Editor为每个扩散阶段提供更多的图像和掩模上下文。

图像编辑器的可靠文本引导图像修复基于三种基本方法:

Imagen Editor使用对象检测器掩膜策略和对象检测器模块,在训练期间生成对象掩膜,而不是以前修补模型使用的随机盒子和笔画掩膜。

Imagen Editor通过在训练和推理期间要求输入图像和掩模的全分辨率、通道级串联来改进高分辨率编辑。

为了将数据引向特定的条件,即文本提示,研究人员在推理中使用无分类器引导(CFG)。CFG在受条件和未受条件的模型预测之间插值,以实现文本引导的图像修复的高精度。

使生成的输出符合文本提示是文本引导的图像修复中的主要难点。

EditBench

EditBench使用240张照片创建了新的文本引导图像修复标准。每个图像都与一个掩膜相关联,该掩膜表示修补过程中将要更改的区域。为了帮助用户指定修改,研究人员为每个图像-掩膜对提供了三个文本提示。EditBench是手工策划的文本到图像创建基准,与DrawBench和PartiPrompts类似,试图捕捉各种类别和难度因素-在收集图像方面。包括预先存在的计算机视觉数据集中的自然照片和EditBench中包含的文本到图像模型生成的合成图像。

EditBench支持的掩膜尺寸范围广泛,甚至包括延伸到图像边框的大型掩膜。EditBench问题的结构旨在评估模型在三个类别的各种细节上的表现:

  1. 属性(如材料、颜色、形状、大小和计数)
  2. 对象类型(如常见、罕见和文本渲染)
  3. 场景(如室内、室外、逼真或绘画)

评估

研究团队对EditBench上的文本-图像对齐和图像质量进行了严格的人类测试。此外,他们将人类偏好与计算度量进行了比较和对比。他们对四个模型进行了分析:

  • 图像编辑器(IM)
  • Imagen EditorRM(IMRM)
  • 稳定扩散(SD)
  • DALL-E 2(DL2)

为了评估训练过程中对象掩蔽的好处,研究人员比较了Imagen Editor和Imagen EditorRM。为了将我们的工作与其他人的工作放在同一平面上,并更广泛地检查当前技术水平的局限性,我们包括了对稳定扩散和DALL-E 2的评估。

总之

提供的图像编辑模型是生成模型大家族的一部分,这些模型使得内容生产中以前难以实现的功能变得可能。但是,它们也存在生成对个人或整个社会有害的内容的风险。一般认为,在语言建模中,文本生成模型可能会无意中反映和放大其训练数据中存在的社会偏见。Imagen Editor是Imagen的文本引导图像修复的改进版本。Imagen Editor依赖于对象掩蔽策略进行训练,并增加了新的卷积层以进行高分辨率编辑。EditBench是一个基于文本描述修复图像的大规模、系统化的基准测试。EditBench对基于属性、基于对象和基于场景的修复系统进行了全面的测试。

Leave a Reply

Your email address will not be published. Required fields are marked *