352 search results for "计算机视觉"

前5家AI开发公司，改变您的业务

Published June 14, 2023 by 四海吧

在当今快节奏的商业世界中，人工智能（AI）在帮助公司保持竞争力方面变得越来越重要具有自动化例行工作、进行数据驱动的能力…

Google AI发布Imagen Editor和EditBench，以改进和评估文本引导图像修复技术

Published June 14, 2023 by 四海吧

最近，人们对文本到图像转换器产生了浓厚的兴趣。这些生成模型非常有用，尽管它们有时在第一次尝试时会产生错误的结果，特别是对于具有更特定创意或设计要求的客户。文本引导的图像编辑可以通过允许交互式修正来改进图像创建过程。生成符合文本提示并与输入图像兼容的修改是一个重大难题。Good的研究人员开发了Imgen Editor，这是一个使用文本指令进行修复的级联扩散模型。 Imgen Editor可以通过在训练期间使用对象检测器来提出修复掩模，从而准确地表示文本提示的修改。Imgen Editor可以通过将级联管道与原始高分辨率图像相结合，捕捉输入图像中最细微的特征。为了提高定量和定性评估，谷歌研究人员提供了EditBench，这是一个标准化的文本引导图像修复基准。EditBench通过检查真实和合成图像中的对象、属性和场景来分析修复修正。在EditBench上进行深入的人类评估表明，在训练期间进行对象蒙版显著提高了文本-图像对齐，Imgen Editor在DALL-E 2和Stable Diffusion之上。总的来说，这些模型比文本渲染更擅长对象渲染，比计数/形状属性更擅长处理材料/颜色/大小属性。图像编辑器要修改图像，请使用Imagen Editor，这是一种专门针对Imagen进行优化的基于扩散的模型。它致力于更准确地表示语言输入、粒度指令和高质量输出。Imagen Editor使用图像修改、二进制掩模以识别修改区域和文本提示这三个输入来确定输出样本。图像编辑器允许用户根据掩模和一组指令对图像的某些区域进行有针对性的更改。该模型考虑用户的目标并对图像进行逼真的调整。Imagen Editor是一种文本引导的图像编辑器，它将广泛的语言表示与粒度控制混合在一起，以生成高质量的结果。Imagen Editor是Imagen的增强版，它使用级联扩散模型来微调文本引导的图像修复。使用三个卷积下采样图像编码器，Imagen Editor为每个扩散阶段提供更多的图像和掩模上下文。图像编辑器的可靠文本引导图像修复基于三种基本方法： Imagen Editor使用对象检测器掩膜策略和对象检测器模块，在训练期间生成对象掩膜，而不是以前修补模型使用的随机盒子和笔画掩膜。 Imagen Editor通过在训练和推理期间要求输入图像和掩模的全分辨率、通道级串联来改进高分辨率编辑。为了将数据引向特定的条件，即文本提示，研究人员在推理中使用无分类器引导（CFG）。CFG在受条件和未受条件的模型预测之间插值，以实现文本引导的图像修复的高精度。使生成的输出符合文本提示是文本引导的图像修复中的主要难点。 EditBench EditBench使用240张照片创建了新的文本引导图像修复标准。每个图像都与一个掩膜相关联，该掩膜表示修补过程中将要更改的区域。为了帮助用户指定修改，研究人员为每个图像-掩膜对提供了三个文本提示。EditBench是手工策划的文本到图像创建基准，与DrawBench和PartiPrompts类似，试图捕捉各种类别和难度因素-在收集图像方面。包括预先存在的计算机视觉数据集中的自然照片和EditBench中包含的文本到图像模型生成的合成图像。…