Press "Enter" to skip to content

Imagen Editor和EditBench:推进和评估文本引导图像修复

Google Research的研究工程师Su Wang和Ceslee Montgomery发布了文章:

在过去的几年中,文本到图像生成研究取得了突破性进展(特别是Imagen、Parti、DALL-E 2等),自然地渗透到相关主题中。特别是,文本引导的图像编辑(TGIE)是一项实际任务,它涉及编辑生成和拍摄的视觉效果,而不是完全重做它们。快速、自动化和可控的编辑是在重新创建视觉效果耗费时间或不可行的情况下提供方便解决方案的一种方式(例如,在度假照片中调整物体或完善从头开始生成的可爱小狗的细节)。此外,TGIE代表了改进基础模型自身培训的重大机会。多模型需要多样化的数据来适当地进行训练,而TGIE编辑可以实现高质量和可扩展的合成数据的生成和重新组合,这些数据最重要的是可以提供沿任何给定轴优化训练数据分布的方法。

在2023 CVPR上,我们将介绍Imagen Editor和EditBench:推进和评估文本引导的图像修复,其中Imagen Editor是掩蔽修补任务的最先进解决方案,即当用户提供文本说明和覆盖层或“掩蔽”(通常在绘图类型界面内生成)指示他们希望修改的图像区域时。我们还介绍了EditBench,一种评估图像编辑模型质量的方法。EditBench超越了通常使用的粗粒度“这张图像是否与这个文本匹配”的方法,深入到各种类型的属性、对象和场景中,以更细粒度的方式了解模型性能。特别是,它强调了图像-文本对齐的准确性,而不失去对图像质量的关注。

Imagen Editor和EditBench:推进和评估文本引导图像修复 人工智能 第1张
给定图像、用户定义的掩蔽和文本提示,Imagen Editor对指定区域进行本地化编辑。该模型有意义地融合了用户的意图并执行了逼真的编辑。

Imagen Editor

Imagen Editor是在Imagen上进行微调的扩散模型,用于编辑。它针对改进语言输入、细粒度控制和高保真输出的表示。Imagen Editor从用户处获得三个输入:1)要编辑的图像,2)一个二进制掩蔽来指定编辑区域,以及3)一个文本提示-所有三个输入都引导输出样本。

Imagen Editor依赖于三个核心技术,以实现高质量的文本引导图像修复。首先,与先前的修复模型(如Palette、Context Attention、Gated Convolution)应用随机框和笔画蒙版不同,Imagen Editor采用了对象检测器掩蔽策略和对象检测器模块,在训练期间生成对象掩蔽。对象掩蔽基于检测到的对象而不是随机补丁,并允许在编辑文本提示和掩蔽区域之间进行更有原则的对齐。从经验上讲,该方法有助于模型抵制文本提示在掩蔽区域很小或仅部分覆盖对象(例如CogView2)时被忽略的普遍问题。

Imagen Editor和EditBench:推进和评估文本引导图像修复 人工智能 第2张
随机蒙版()经常捕捉背景或与对象边界相交,定义可以仅通过图像上下文合理修补的区域。对象掩蔽()更难以仅从图像上下文中修补,鼓励模型更多地依赖于训练期间的文本输入。

接下来,在训练和推理过程中,Imagen Editor通过对输入图像和掩膜的全分辨率(本文中为1024×1024)进行逐通道连接(类似于SR3、Palette和GLIDE),提高了高分辨率编辑的能力。对于基础扩散64×64模型和64×64→256×256超分辨率模型,我们应用参数化下采样卷积(例如,带步长的卷积),经实验证明这对于高保真度至关重要。

Imagen Editor和EditBench:推进和评估文本引导图像修复 人工智能 第3张
Imagen针对图像编辑进行了微调。所有扩散模型,即基础模型和超分辨率(SR)模型,都以高分辨率1024×1024图像和掩膜输入作为条件。为此,引入了新的卷积图像编码器。

最后,在推理过程中,我们应用无分类器引导(CFG)来偏置样本到特定的条件,例如文本提示。CFG插值在文本条件和无条件模型预测之间,以确保生成的图像与输入文本提示之间具有强烈的对齐性,用于文本引导的图像修复。我们遵循Imagen Video并使用高引导权重和引导振荡(在引导权重值范围内振荡的引导计划)。在基础模型(阶段1的64x扩散)中,确保与文本的强对齐是最关键的,我们使用振荡在1和30之间的引导权重计划。我们观察到,高引导权重与振荡引导相结合,可以取得最佳的样本保真度和文本-图像对齐度之间的平衡。

EditBench

用于文本引导的图像修复评估的EditBench数据集包含240张图像,其中包括120张生成的和120张自然的图像。生成的图像是由Parti合成的,自然的图像则来自Visual Genome和Open Images数据集。EditBench涵盖了各种语言,图像类型和文本提示特定性级别(例如,简单,丰富和完整的标题)。每个示例包括(1)一个掩膜输入图像,(2)一个输入文本提示和(3)作为自动度量参考的高质量输出图像。为了了解不同模型的相对优点和缺点,EditBench提示被设计为在三个类别中测试细节:(1)属性(例如,材料,颜色,形状,大小,数量);(2)物体类型(例如,常见,罕见,文本呈现);以及(3)场景(例如,室内,室外,现实或绘画)。为了了解不同提示规范如何影响模型性能,我们提供三种文本提示类型:掩膜简单(Mask Simple)或掩膜对象的多属性描述(Mask Rich)-或整个图像描述(Full Image)。特别是,Mask Rich探测了模型处理复杂属性绑定和包含的能力。

Imagen Editor和EditBench:推进和评估文本引导图像修复 人工智能 第4张
完整图像用作成功修复的参考。掩膜覆盖目标对象,其形状是自由形的,没有提示。我们评估Mask Simple,Mask Rich和Full Image提示,与传统的文本到图像模型一致。

由于现有的自动评估指标(CLIPScore和CLIP-R-Precision)在TGIE中存在固有的弱点,我们将人工评估视为EditBench的黄金标准。在下面的部分中,我们演示了如何将EditBench应用于模型评估。

评估

我们将带有对象遮罩(IM)和随机遮罩(IM-RM)的Imagen Editor模型与可比较的模型Stable Diffusion(SD)和DALL-E 2(DL2)进行评估。在所有EditBench评估类别中,Imagen Editor在比较模型中表现出了相当大的优势。

对于完整图像提示,单张图像的人工评估提供二进制答案,以确认图像是否与标题匹配。对于遮罩简单提示,单张图像的人工评估确认对象和属性是否被正确呈现和正确绑定(例如,对于一只红色的猫,白色的猫在红色的桌子上是不正确的绑定)。并且仅使用Mask Rich提示的并排人工评估用于IM与其他三个模型(IM-RM、DL2和SD)之间的并排比较,并指出哪个图像更好地与标题匹配,哪个图像最逼真。

Imagen Editor和EditBench:推进和评估文本引导图像修复 人工智能 第5张
人工评估。完整图像提示引发注释者对文本图像对齐的总体印象;遮罩简单和遮罩丰富检查特定属性、对象和属性绑定是否正确包含。

对于单张图像的人工评估,IM在各个方面都获得了最高的评分(比第二高性能模型高10-13%)。对于其余部分,性能顺序为IM-RM>DL2>SD(差异为3-6%),除了在Mask Simple中,IM-RM落后4-8%。由于Full和Mask Rich涉及的语义内容较多,我们推测IM-RM和IM受益于性能更好的T5 XXL文本编码器。

Imagen Editor和EditBench:推进和评估文本引导图像修复 人工智能 第6张
EditBench上基于文本引导的图像修复的单张图像人工评估,按提示类型分类。对于遮罩简单和遮罩丰富提示,如果编辑后的图像准确包括提示中指定的每个属性和对象,包括正确的属性绑定,则文本图像对齐是正确的。请注意,由于不同的评估设计,Full vs. Mask-only提示,结果不太可比。

EditBench专注于细粒度注释,因此我们评估对象和属性类型的模型。对于对象类型,IM在所有类别中领先,与常见、罕见和文本呈现的第二高性能模型相比表现优异,高出10-11%。

Imagen Editor和EditBench:推进和评估文本引导图像修复 人工智能 第7张
EditBench Mask Simple的单张图像人工评估按对象类型分类。作为一组,模型在对象呈现方面的表现优于文本呈现。

对于属性类型,IM的表现要比第二高的模型高出非常多(13-16%),除了在count方面,DL2仅仅落后1%。

Imagen Editor和EditBench:推进和评估文本引导图像修复 人工智能 第8张
对于属性类型的EditBench Mask Simple上的单图像人工评估。对象遮盖可以在全面提高遵循提示属性的精度(IM vs. IM-RM)。

与其他模型一对一进行比较,IM在文本对齐方面具有明显优势,与SD,DL2和IM-RM相比,被标注者更喜欢它。

Imagen Editor和EditBench:推进和评估文本引导图像修复 人工智能 第9张
在EditBench Mask Rich prompts上进行的图像逼真度和文本-图像对齐的人工比较。在所有比较中,标注者更喜欢Imagen Editor。

最后,我们展示了所有模型的代表性比较。更多示例请参见论文。

Imagen Editor和EditBench:推进和评估文本引导图像修复 人工智能 第10张
对于Mask Simple vs. Mask Rich prompts的示例模型输出。与使用随机遮盖的相同模型相比,对象遮盖可以提高Imagen Editor对提示的细粒度遵循。

结论

我们提出了Imagen Editor和EditBench,对文本引导的图像修补及其评估进行了重大改进。Imagen Editor是从Imagen fine-tuned的文本引导图像修补。EditBench是一个全面系统的基准评估,可在多个维度上评估性能:属性、对象和场景。请注意,由于涉及到负责任的AI问题,我们不会向公众发布Imagen Editor。然而,我们会完全公开发布EditBench以造福研究界。

致谢

感谢Gunjan Baid、Nicole Brichtova、Sara Mahdavi、Kathy Meier-Hellstern、Zarana Parekh、Anusha Ramesh、Tris Warkentin、Austin Waters和Vijay Vasudevan的慷慨支持。我们感谢Igor Karpov、Isabel Kraus-Liang、Raghava Ram Pamidigantam、Mahesh Maddinala和所有匿名人工标注者协调完成人工评估任务。感谢Huiwen Chang、Austin Tarango和Douglas Eck提供论文反馈。感谢Erica Moreira和Victor Gomes为资源协调提供帮助。最后,感谢DALL-E 2的作者允许我们在研究目的下使用他们的模型输出。

Leave a Reply

Your email address will not be published. Required fields are marked *