Press "Enter" to skip to content

152 search results for "文本到图像"

亚利桑那州立大学的这项人工智能研究揭示了ECLIPSE:一种新颖的对比学习策略,以改善文本到图像的非扩散先验

扩散模型在给定文本提示时已被证明在生成高质量照片方面非常成功。这种文本到图片(T2I)生成的范例已成功用于一些下游应用,包括深度驱动的图片生成以及主体/分割识别。两个受欢迎的基于文本条件的扩散模型,CLIP模型和潜在扩散模型(LDM),通常被称为稳定扩散,对这些进展至关重要。LDM在研究中以开源软件的形式免费提供,因此得到了广泛熟知。而对于未CLIP模型,却鲜有关注。这两种模型类型的基本目标都是根据文本提示训练扩散模型。 与未CLIP模型不同,LDM只有一个文本到图片扩散模型,而不需要文本到图片先验和扩散图片解码器。这两个模型家族都在图像的矢量量化潜空间内运作。因为未CLIP模型在多个组合基准测试中通常优于其他SOTA模型,如T2I-CompBench和HRS-Benchmark,所以研究团队在本文中将重点放在它们身上。这些T2I模型通常有很多参数,需要优秀的图像-文本对进行训练。与LDM相比,如DALL-E-2、卡洛和康定斯基等未CLIP模型由于它们的早期模块,其总模型大小要大得多(≥ 2B),约有10亿参数。 按照顺序,这些未CLIP模型的训练数据分别为250M、115M和177M个图像-文本对。因此,仍然存在两个重要问题:1)使用文本到图片先验能否提高文本组合的SOTA性能?2)或者模型大小的增加才是关键因素?通过增加参数和数据效率,研究团队旨在改善他们对T2I先验的认识,并在目前的公式上作出重大改进。先验的T2I目标是在扩散过程的每个时间步骤中直接估计无噪声图像嵌入,正如先前的研究所建议的那样,它们也是扩散模型。为了研究这个先前的传播过程,研究团队进行了实证调查。 图1比较了SOTA文本到图片模型在三个组合任务(颜色、形状和纹理)上的平均性能以及总参数数量。ECLIPSE只需要很少的训练数据,但却能产生更好的结果,并且使用较少的参数。所展示的ECLIPSE使用康定斯基解码器,通过仅使用500万个图像-文本对进行训练,使用约3300万个参数训练了一个T2I先验模型。 研究团队发现了扩散过程对性能的轻微负面影响,并且对产生正确图片没有影响。此外,由于扩散模型收敛速度较慢,训练它们需要显著的GPU小时或天数。因此,在本研究中,非扩散模型作为替代方法。由于缺乏无分类器引导,这种方法可能会限制组合性的可能性,但却大大提高了参数效率并减少了对数据的依赖。 在这项研究中,亚利桑那州立大学的研究团队提出了一种独特的对比学习技术,称为ECLIPSE,来增强T2I非扩散先验并克服上述缺点。研究团队优化了传统方法,即通过优化证据下界(ELBO)产生图像嵌入来从所提供的文本嵌入生成图片。研究团队建议使用预训练的视觉语言模型的语义对齐(文本和图片之间)特征来监督早期训练。研究团队使用相对较少的图像-文本对(0.34% – 8.69%)使用ECLIPSE训练紧凑的(97%更小)的非扩散先验模型(具有3300万个参数)。研究团队为未CLIP扩散图片解码器的变体(卡洛和康定斯基)引入了ECLIPSE训练的先验。ECLIPSE训练的先验模型优于拥有10亿参数的对应版本,并且优于基准先验学习算法。他们的研究结果表明了一条可能的T2I生成模型的路径,这种模型在不需要很多参数或数据的情况下提高了组合性。 如图1所示,它们的总参数和数据需求显著降低,并通过增加T2I在unCLIP家族之前取得了与相似参数模型相媲美的性能。贡献:1)在unCLIP框架下,研究团队提供了ECLIPSE,这是首个利用对比学习进行文本到图像先验的尝试。2)通过全面的实验,研究团队证明了ECLIPSE在资源受限环境中优于基线先验的优越性。3)值得注意的是,ECLIPSE先验仅需使用训练数据的2.8%和模型参数的3.3%即可获得与更大模型相当的性能。4)研究团队还研究了当前T2I扩散先验的缺点,并提供了实证观察结果。

Leave a Comment

腾讯研究员发布FaceStudio:一种创新的人工智能文本到图像生成方法,专注于保留身份

文本到图像扩散模型代表了人工智能研究中一个有趣的领域。它们旨在根据文本描述创建逼真的图像,利用扩散模型进行生成。该过程涉及从基本分布中逐步生成样本,逐渐转化为与目标图像相似,同时考虑文本描述。多个步骤参与其中,将逐步引入噪音来生成图像。 目前的文本到图像扩散模型面临一个现有的挑战:仅凭文本描述准确地描绘一个主题。当需要生成复杂细节,如人脸特征时,尤其明显。因此,在探索超越文本线索的保持身份的图像合成方面,人们越来越有兴趣。 腾讯的研究人员提出了一种新的方法,专注于人体图像的身份保持图像合成。他们的模型采用了直接向前传递的方法,绕过复杂的微调步骤,以便快速高效地生成图像。它利用文本提示并结合样式和身份影像的额外信息。 他们的方法涉及一种多身份跨注意机制,使模型能够将来自不同身份的特定引导细节与图像中的不同人体区域相关联。通过使用包含人体图像的数据集对模型进行训练,并以人脸特征作为身份输入,模型学会在强调身份特征的同时重建人体图像。 他们的模型展示了在保留主体身份的同时合成人体图像的出色能力。此外,它使用户能够将自己的面部特征投影到不同风格的图像(如卡通),使用户能够在不损害身份的前提下以不同的风格进行可视化。此外,当提供相应的参考照片时,它在混合多个身份的创意生成方面表现出色。 他们的模型在单镜头和多镜头场景中展示了出色的性能,凸显了其在保护身份方面的设计的有效性。尽管基线图像重建大致保持图像内容,但在细粒度身份信息方面存在困难。相反,他们的模型成功地从身份引导分支中提取身份信息,从而为面部区域实现了更好的结果。 然而,该模型复制人脸的能力引发了伦理关注,尤其是可能创建冒犯性或文化不恰当的图像。负责任地使用这项技术至关重要,需要制定准则以防止在敏感情境中滥用。

Leave a Comment

谷歌人工智能和特拉维夫大学研究人员展示了一个人工智能框架,将文本到图像扩散模型与专门的镜头几何图像渲染相结合

最近,在图像生成方面取得了重大进展,利用大规模扩散模型在配对的文本和图像数据上进行训练,加入多样化的条件方法以增强视觉控制。这些方法从明确的模型条件到修改预训练架构以适应新的模态。利用提取的图像特征如深度对文本条件的模型进行微调,可以实现图像重建。早些时候的研究人员引入了一种使用原始分辨率信息进行多分辨率和形状一致图像生成的GANs框架。 谷歌研究和特拉维夫大学的研究人员提出了一种AI框架(AnyLens),将文本到图像扩散模型与特殊的镜头几何结构相结合,用于图像渲染。这种整合使得对渲染几何的精确控制成为可能,通过一个单一的扩散模型可以生成鱼眼、全景视图和球面纹理等多样化的视觉效果。 该研究通过引入一种新的方法来解决将多样化光学控制融入文本到图像扩散模型的挑战。该方法使模型能够在局部镜头几何条件下进行条件附加,提高了模型复制精巧光学效果以生成逼真图像的能力。除了传统的画布变换外,该方法还允许通过逐像素坐标条件进行几乎任何栅格扭曲。这种创新支持各种应用,包括全景场景生成和球面纹理。它引入了一个度量张量条件的流形几何感知图像生成框架,扩大了对图像生成的控制和操作的可能性。 该研究通过逐像素坐标条件将文本到图像扩散模型与特定镜头几何相结合的框架。该方法通过使用随机变换场扭曲图像生成的数据对预训练潜扩散模型进行微调。采用了自注意力层的令牌重加权。该方法允许曲率特性的操作,产生鱼眼和全景视图等多样效果。它超越了固定分辨率的图像生成,采用度量张量条件以增强控制。该框架扩展了图像操作的可能性,解决了扩散模型中大型图像生成和自注意力尺度调整等挑战。 该框架成功地将文本到图像扩散模型与特定的镜头几何结合起来,以一个模型实现了鱼眼、全景视图和球面纹理等多样化的视觉效果。它可以精确控制曲率特性和渲染几何,生成逼真而细致的图像。该方法通过对大型文本注释数据集和逐像素变换场进行训练,生成任意变形的图像,并且结果与目标几何形状紧密对齐,无失真。它还便于创建具有逼真比例和最小伪影的球形全景图。 总之,新引入的框架在图像渲染中整合了各种镜头几何,提供了对曲率特性和视觉效果的增强控制。通过逐像素坐标和度量条件,该方法便于对渲染几何进行操纵,创造出具有精准曲率特性,引起几何操纵的高度逼真图像。该框架鼓励图像合成中的创造性和控制,使其成为生产高质量图像的有价值的工具。 未来的工作建议通过探索先进的条件技术来克服该方法的局限性,从而增强多样化图像生成。研究人员提出扩展该方法以达到捕捉不同场景的专用镜头类似结果的可能性。提及使用更先进的条件技术的潜在用途,预计将实现改进的图像生成和增强的能力。

Leave a Comment

文本到图像革命:Segmind的SD-1B模型成为最快的游戏中的模型

介绍 Segmind AI 自豪地发布了 SSD-1B(Segmind Stable Diffusion 1B),这是一种具有颠覆性的开源文本到图像生成模型革命。这个闪电般快速的模型具有前所未有的速度、紧凑设计和高质量的视觉输出。人工智能在自然语言处理和计算机视觉方面取得了快速进展,并展示出重新定义界限的创新。由于其关键特征,SSD 1B 模型是计算机视觉的开拓之门。在这篇全面的文章中,我们深入探讨了该模型的特点、用例、架构、训练信息等等。 学习目标 探索 SSD-1B 的架构概述,了解它如何从专家模型中进行知识蒸馏。 通过在 Segmind 平台上使用 SSD-1B 模型进行快速推理和使用代码推理,获得实践经验。 了解下游用例,了解 SSD-1B 模型如何用于特定任务。 认识 SSD-1B 的局限性,特别是在实现绝对照片逼真度和在某些场景中保持文本清晰度方面。…

Leave a Comment

这篇AI论文介绍了LCM-LoRA:通过先进的潜在一致性模型和LoRA蒸馏来改变文本到图像生成任务的革命性方法

“` 潜在扩散模型是机器学习中常用的生成模型,特别是在概率建模中。这些模型旨在捕捉数据集的潜在结构或潜在变量,通常专注于生成逼真的样本或作出预测。它们描述了系统随时间的演变。这可以指从初始分布通过一系列步骤或扩散过程将一组随机变量转化为所需分布。 这些模型基于ODE-Solver方法。尽管减少了推理步骤的数量,但它们仍然需要大量的计算开销,特别是在融入无分类器的引导时。Guided-Distill等蒸馏方法是有希望的,但由于它们的计算需求密集,必须进行改进。 为了解决这些问题,出现了对潜在一致性模型的需求。他们的方法涉及到一个反向扩散过程,将其视为增广的概率流ODE问题。他们创新地在潜在空间中预测解,并通过数值ODE求解器避免了迭代解决方案的需要。在生成高分辨率图像的remarkable综合中,只需要1到4个推理步骤。 清华大学的研究人员通过将LoRA蒸馏应用到Stable-Diffusion模型中,包括SD-V1.5、SSD-1B和SDXL,扩展了LCM的潜力。他们通过实现卓越的图像生成质量,扩大了LCM在具有显著较少内存消耗的大型模型中的应用范围。对于专用数据集,如动画、照片逼真或幻想图像,还需要额外的步骤,例如使用潜在一致性蒸馏(LCD)将预训练的LDM蒸馏为LCM,或直接使用LCF对LCM进行微调。然而,在自定义数据集上是否可以实现快速、无需训练的推理呢? 团队引入了LCM-LoRA作为一个通用的无训练加速模块,可以直接插入到各种Stable-Diffusion经过微调的模型中来回答这个问题。在LoRA的框架内,所得到的LoRA参数可以无缝地集成到原始模型参数中。团队已经证明了在潜在一致性模型(LCMs)蒸馏过程中应用LoRA的可行性。LCM-LoRA参数可以直接与其他LoRA参数组合,并在特定风格的数据集上进行微调。这将使人们能够在特定风格中以最少的采样步骤生成图像,而无需任何进一步的训练。因此,它们代表了适用于各种图像生成任务的一种普遍适用的加速器。 这种创新方法显著减少了迭代步骤的需求,实现了从文本输入快速生成高保真度图像,并为最先进的性能设定了新的标准。LoRA显著减少了需要修改的参数的数量,从而提高了计算效率,并允许用较少的数据进行模型改进。 “`

Leave a Comment

遇见Davidsonian场景图:一种革命性的人工智能框架,用于准确评估文本到图像人工智能

文本到图像(T2I)模型的评估很难,通常依赖于生成和回答问题(QG/A)的方法来评估文本图像的忠实度。然而,当前的QG/A方法存在可靠性问题,如问题质量和答案的一致性。为此,研究人员引入了Davidsonian场景图(DSG),这是一种受形式语义启发的自动QG/A框架。DSG在依赖图中生成原子的、上下文相关的问题,以确保更好的语义覆盖和一致的答案。实验结果证明了DSG在各种模型配置上的有效性。 该研究聚焦于评估文本到图像模型面临的挑战,并强调了QG/A对于评估文本图像配对的忠实度的有效性。常用的评估方法包括文本图像嵌入相似度和基于图像字幕的文本相似度。还讨论了之前的QG/A方法,如TIFA和VQ2A。DSG强调了对于语义细微差别、主观性、领域知识以及超出当前VQA(视觉问答)模型能力的语义类别的进一步研究的需求。 文本到图像模型通过文本描述生成图像,引起了关注。传统的评估依赖于提示和图片之间的相似性得分。最近的方法提出了一个QG模块,从文本中创建验证问题和预期答案,然后通过一个VQA模块回答这些问题,基于生成的图像。这种被称为QGA框架的方法借鉴了机器学习中使用的基于问答的验证方法,如摘要质量评估。 DSG是一个受形式语义启发的自动图形QG/A评估框架。DSG在依赖图中生成独特的、上下文相关的问题,以确保语义覆盖和避免不一致的答案。它适用于多种QG/A模块和模型配置,并通过广泛的实验证明了其有效性。 作为评估文本到图像生成模型的框架,DSG解决了QG/A中的可靠性挑战。它在依赖图中生成上下文相关的问题,并在不同的模型配置上进行了实验验证。该方法提供了DSG-1k,一个包含1,060个不同语义类别的提示的开放式评估基准,同时还提供了相应的DSG问题,用于进一步的研究和评估。 总之,DSG框架是评估文本到图像模型和解决QG/A挑战的有效方法。通过使用不同的模型配置进行广泛的实验,证实了DSG的实用性。它提出了一个包含各种样本的DSG-1k开放基准。该研究强调了人类评估作为当前可靠性的黄金标准的重要性,同时承认在特定类别中语义细微差别和限制的进一步研究的必要性。 未来的研究可以解决主观性和领域知识相关的问题。这些问题可能导致模型与人类之间的不一致,以及不同的人类评估者之间的不一致。该研究还强调了当前VQA模型在准确表示文本方面的局限性,强调了在模型性能的这一领域改进的必要性。

Leave a Comment

这项OpenAI研究介绍了DALL-E 3:通过增强的指令跟随功能,彻底改变了文本到图像模型的方法

“`html 在人工智能领域,提升文本到图像生成模型的追求已经引起了重要的关注。作为该领域的一位著名竞争者,DALL-E 3因其出色的能力,根据文本描述创建连贯的图像而最近受到关注。尽管取得了成就,但该系统仍然面临挑战,特别是在空间意识、文本渲染和生成图像的具体性方面。最近的研究工作提出了一种新颖的训练方法,将合成和真实的标题结合起来,旨在增强DALL-E 3的图像生成能力,并解决这些持久性挑战。 研究首先强调了DALL-E 3当前功能的局限性,强调了其在准确理解空间关系和忠实渲染复杂文本细节方面的困难。这些挑战显著影响了该模型将文本描述解释为视觉连贯和上下文准确的图像的能力。为了解决这些问题,OpenAI研究团队引入了一个全面的训练策略,将模型生成的合成标题与基于人类生成描述的真实标题融合在一起。通过将模型暴露给这个多样化的数据语料库,团队试图让DALL-E 3获得对文本背景的细致理解,从而促进生成的图像能够精细地捕捉提供的文本提示中蕴含的细微差别。 研究人员深入探讨了他们提出的方法学的技术细节,强调了广泛的合成和真实标题在调整模型训练过程中的关键作用。他们强调这种全面方法如何增强DALL-E 3在识别复杂空间关系和准确渲染文本信息方面的能力。团队展示了进行的各种实验和评估,以验证其提出的方法的有效性,并展示了DALL-E 3的图像生成质量和保真度取得的显着改善。 此外,该研究强调了先进的语言模型在丰富字幕处理过程中的重要作用。诸如GPT-4之类的复杂语言模型有助于提高DALL-E 3处理的文本信息的质量和深度,从而促进了具有细致准确和视觉吸引力的生成图像。 总之,研究概述了所提出的训练方法对未来文本到图像生成模型的进一步发展的有希望的影响。通过有效解决与空间意识、文本渲染和具体性相关的挑战,研究团队展示了在基于人工智能的图像生成方面取得重大进展的潜力。所提出的策略不仅增强了DALL-E 3的性能,还为先进的文本到图像生成技术的持续演进奠定了基础。 “`

Leave a Comment

“我们能生成超真实的人类形象吗?这篇AI论文介绍了HyperHuman:一个文本到图像模型的重大进展”

将此HTML代码(保留HTML代码在结果中)翻译成中文: 量子计算常被誉为能够彻底改变问题解决的潜力,尤其是当经典计算机面临重大限制时。虽然讨论大部分聚焦于渐进调整的理论优势,但识别量子计算机在有限尺寸问题上的实际应用至关重要。具体的例子可以展示量子计算机比经典对应物更高效地解决哪些问题以及如何在这些任务中使用量子算法。近年来,合作研究工作探索了量子计算在现实应用领域上的潜在应用,从而为这一新兴技术提供了深入了解。 基于扩散的文本转图像(T2I)模型因其可扩展性和训练稳定性而成为生成图像的首选。然而,像稳定的扩散这样的模型需要帮助创建高保真度的人类图像。传统的可控人类生成方法存在限制。研究人员提出的HyperHuman框架通过捕捉外观和潜在结构之间的相关性来克服这些挑战。它结合了一个大型的以人类为中心的数据集,一个潜在结构扩散模型以及一个结构引导的精细调节器,实现了超逼真的人类图像生成的最新成果。 从用户条件(如文本和姿势)生成超逼真的人类图像对于图像动画和虚拟试穿等应用至关重要。早期使用VAE或GAN的方法在训练稳定性和容量方面存在局限性。扩散模型已经彻底改变了生成AI,但现有的T2I模型在人体解剖和自然姿态上存在问题。HyperHuman介绍了一个捕捉外观-结构相关性的框架,确保人类图像生成过程中的高逼真度和多样性,并解决了这些挑战。 HyperHuman是一个用于生成超逼真人类图像的框架。它包括一个包含3.4亿个标注图像的广泛的以人类为中心的数据集HumanVerse。HyperHuman框架结合了一个去噪深度和表面法线的潜在结构扩散模型,同时生成RGB图像。一个结构引导的精细调节器增强了合成图像的质量和细节。他们的框架可以在各种场景下生成超逼真的人类图像。 他们的研究使用了各种指标评估HyperHuman框架,包括图像质量和多样性的FID、KID和FID CLIP,文本-图像对齐的CLIP相似性以及姿势准确度指标。尽管使用的模型较小,HyperHuman在图像质量和姿势准确度方面表现出色,在CLIP得分中排名第二。他们的框架在图像质量、文本对齐和常用的CFG尺度上展现了平衡的性能。 总之,HyperHuman框架引入了一种新的生成超逼真人类图像的方法,克服了连续性和自然性方面的挑战。它利用HumanVerse数据集和潜在结构扩散模型生成高质量、多样化和与文本对齐的图像。该框架的结构引导的精细调节器提高了视觉质量和分辨率。与以前的模型相比,它在超逼真人类图像生成方面具有卓越的性能和鲁棒性。未来的研究可以探索使用像LLMs这样的深度先验来实现文本到姿势的生成,从而消除对身体骨骼输入的需要。

Leave a Comment

CMU与Google DeepMind的研究人员介绍了AlignProp:一种基于直接反向传播的人工智能方法,用于微调文本到图像扩散模型以实现期望的奖励函数

概率扩散模型已成为连续域生成建模的已确立规范。在文本到图像扩散模型方面,DALLE引领潮流。这些模型以其在广泛的网络规模数据集上进行训练以生成图像的能力而受到重视。本论文讨论了文本到图像扩散模型在图像生成的前沿地位方面的最新发展情况。这些模型是通过在大规模无监督或弱监督的文本到图像数据集上进行训练而获得的。然而,由于其无监督性质,控制它们的行为以优化人类感知图像质量、图像与文本的对齐或伦理图像生成等下游任务是一项具有挑战性的努力。 最近的研究试图使用强化学习技术对扩散模型进行微调,但这种方法在梯度估计器中具有高方差。针对这一问题,本论文引入了“AlignProp”,一种通过回传奖励梯度在去噪过程中与下游奖励函数对齐的方法。 AlignProp的创新方法缓解了通常与现代文本到图像模型通过反向传播进行内存需求高的问题。它通过微调低秩适配器权重模块和实施梯度检查点来实现这一目标。 本论文评估了AlignProp在微调扩散模型以实现各种目标时的性能,包括图像与文本的语义对齐、美学、图像可压缩性以及生成图像中对象数量的可控性,以及这些目标的组合。结果表明,AlignProp在更少的训练步骤中通过获得更高的奖励优于其他方法。此外,它因其概念上的简单性而备受关注,使其成为根据所关注的可微分奖励函数优化扩散模型的直接选择。 AlignProp方法利用从奖励函数获得的梯度来微调扩散模型,从而提高采样效率和计算效率。进行的实验一致表明AlignProp在优化各种奖励函数方面的有效性,甚至适用于仅通过提示难以定义的任务。未来的潜在研究方向可能涉及将这些原理扩展到基于扩散的语言模型,以改善其与人类反馈的对齐。

Leave a Comment

这项人工智能研究揭示了“康定斯基1号”:一种在COCO-30K上以杰出的FID分数进行潜在扩散文本到图像生成的新方法

近年来,计算机视觉和生成建模取得了显著进展,推动了文本到图像生成的发展。包括扩散模型在内的各种生成架构在提高生成图像的质量和多样性方面起到了关键作用。本文探讨了Kandinsky1的原理、特点和能力,这是一个具有33亿参数的强大模型,并强调了它在可衡量的图像生成质量方面的顶级表现。 文本到图像生成模型已经从内容级别的自回归方法演变为像DALL-E 2和Imagen这样的基于扩散的模型。这些扩散模型被分类为像素级和潜在级别的模型,在图像生成方面表现出色,超越了GAN在忠实度和多样性方面。它们在不需要对抗训练的情况下整合文本条件,如GLIDE和eDiff-I模型所示,这些模型生成低分辨率的图像,并使用超分辨率扩散模型将其放大。这些进步改变了文本到图像生成的方式。 AIRI、Skoltech和Sber AI的研究人员介绍了Kandinsky,这是一种结合了潜在扩散技术和图像先验模型的新型文本到图像生成模型。Kandinsky以修改后的MoVQ实现作为其图像自编码器组件,并单独训练图像先验模型将文本嵌入映射到CLIP的图像嵌入中。他们的方法提供了一个用户友好的演示系统,支持多种生成模式,并发布了模型的源代码和检查点。 他们的方法引入了一种潜在扩散架构,用于文本到图像合成,利用图像先验模型和潜在扩散技术。它采用了一种图像先验方法,通过使用CLIP和XLMR文本嵌入之间的扩散和线性映射,将文本与图像嵌入相结合。他们的模型包括三个关键步骤:文本编码、嵌入映射(图像先验)和潜在扩散。基于全数据集统计的视觉嵌入逐元素归一化实现可以加速扩散过程的收敛。 Kandinsky架构在文本到图像生成方面表现出色,在256×256分辨率下在COCO-30K验证数据集上获得了令人印象深刻的FID分数8.03。线性先验配置获得了最佳的FID分数,表明视觉和文本嵌入之间存在潜在的线性关系。他们的模型在训练一个“猫先验”时展示了出色的图像生成能力。总体而言,Kandinsky在文本到图像合成方面与最先进的模型竞争激烈。 Kandinsky作为一种基于潜在扩散的系统,在图像生成和处理任务中表现出色。他们的研究广泛探索了图像先验设计选择,线性先验显示出潜在的应用前景,并暗示了视觉和文本嵌入之间存在线性关联。用户友好的界面,如Web应用和Telegram机器人,提高了可访问性。未来的研究方向包括利用先进的图像编码器,增强UNet架构,改进文本提示,生成更高分辨率的图像,以及探索局部编辑和基于物理的控制等功能。研究人员强调需要解决内容方面的问题,建议使用实时审核或强大的分类器来减轻不受欢迎的输出。

Leave a Comment

Salesforce AI推出了GlueGen:通过高效编码升级和多模态能力改革文本到图像模型

在文本到图像(T2I)模型不断发展的领域中,随着GlueGen的引入,新的领域正在出现。T2I模型在生成图像方面展现出了令人印象深刻的能力,但是它们在修改或增强功能方面的刚性一直是一个重大挑战。GlueGen的目标是通过将单模态或多模态编码器与现有的T2I模型进行对齐来改变这种范式。这一方法由西北大学、Salesforce AI Research和斯坦福大学的研究人员共同探索,简化了升级和扩展,并开启了多语言支持、声音到图像生成和增强文本编码的新时代。在本文中,我们将深入探讨GlueGen的变革潜力,探索它在推进X到图像(X2I)生成方面的作用。 现有的T2I生成方法,特别是基于扩散过程的方法,已经在根据用户提供的标题生成图像方面取得了显著的成功。然而,这些模型面临将文本编码器与图像解码器紧密耦合的挑战,使得修改或升级变得繁琐。一些其他T2I方法的参考包括基于GAN的方法,如生成对抗网络(GANs),Stack-GAN,Attn-GAN,SD-GAN,DM-GAN,DF-GAN,LAFITE,以及自回归变换器模型,如DALL-E和CogView。此外,扩散模型,如GLIDE、DALL-E 2和Imagen,在该领域中已被用于图像生成。 T2I生成模型在算法改进和广泛训练数据的推动下已取得了显著进展。基于扩散的T2I模型在图像质量方面表现出色,但在可控性和构图方面较为困难,往往需要及时的工程调整以实现所需的结果。另一个限制是主要训练于英文文本标题,限制了其多语言的实用性。 GlueGen框架引入了GlueNet,将来自各种单模态或多模态编码器的特征与现有T2I模型的潜在空间进行对齐。他们的方法使用平行语料库来对齐不同编码器之间的表示空间的新训练目标。GlueGen的能力还可将多语言语言模型(如XLM-Roberta)与T2I模型进行对齐,从而使其能够从非英文标题生成高质量的图像。此外,它还可以将多模态编码器(如AudioCLIP)与Stable Diffusion模型进行对齐,实现声音到图像的生成。 GlueGen提供了将不同功能表征对齐的能力,使新功能无缝集成到现有的T2I模型中。它通过将多语言语言模型(如XLM-Roberta)与T2I模型进行对齐,生成高质量的非英文标题图像。此外,GlueGen还将多模态编码器(如AudioCLIP)与Stable Diffusion模型进行对齐,实现声音到图像的生成。该方法还通过其目标重新加权技术,提高了图像的稳定性和准确性,与原始的GlueNet相比。评估使用FID得分和用户研究进行。 总之,GlueGen为对齐各种功能表征提供了解决方案,增强了现有T2I模型的适应性。通过对齐多语言语言模型和多模态编码器,它拓展了T2I模型从多样的源生成高质量图像的能力。GlueGen通过提出的目标重新加权技术,提高了图像的稳定性和准确性,解决了在T2I模型中打破文本编码器和图像解码器之间紧密耦合的挑战,为更轻松的升级和替换铺平了道路。总体而言,GlueGen为推进X到图像生成功能提供了一种有希望的方法。

Leave a Comment

表意文字如何革新文本到图像的转换?超越DALL-E和Midjourney的人工智能平台生成字母

人工智能在近年来取得了显著的进展,其中文本到图像生成是一个特别感兴趣的领域。总部位于多伦多的人工智能初创公司Ideogram最近推出了其平台,旨在在生成式文本到图像技术的竞争领域中留下自己的印记。 这一领域的知名公司包括DALL-E、Midjourney和Adobe Firefly。这些平台在从文本提示生成图像方面设定了很高的标准,并因其对基于人工智能的创造力做出的贡献而广受认可。 Ideogram由一支在知名机构从事人工智能项目并具有丰富经验的行业老将团队领导。该团队强调Ideogram通过人工智能来推动创造力的民主化,同时保持高水平的信任和安全标准。 Ideogram提供与其他成熟平台类似的功能。用户可以通过使用Google电子邮件地址注册来将文本提示转换为图像。注册后,他们可以输入提示并选择从各种渲染风格中生成图像,如动漫、黑暗奇幻或涂鸦。该平台提供三种分辨率的选项,并根据输入提示和所选风格提供四种结果。用户可以通过重组这些生成的图像并添加或删除提示和技术来自定义它们。 Ideogram的一个显著特点是其生成字母的能力,这使其与Midjourney和DALL-E等文本到图像工具有所区别。虽然实现这一点需要多次尝试,但用户可以至少期望得到一个令人满意的结果。通过重新组合所选择的结果,可以轻松地获得更多拼写正确的结果。然而,和竞争对手一样,Ideogram也存在一些不足之处。用户可能会遇到奇怪的手和脸部渲染、不真实的线条和颜色以及偶尔的拼写错误。 所以,现在让我们来试试吧: 步骤 1:前往https://ideogram.ai/ 步骤 2:使用免费账户注册 步骤 3:成功登录后,您将看到下面的屏幕 步骤 4:输入您的提示以创建内容,并选择下面的标签。 步骤 5:观看下面的视频进行演示

Leave a Comment

“弗拉明戈和DALL-E互相理解吗?探索图像描述和文本到图像生成模型之间的共生关系”

多模态研究近来在文本和视觉的计算机理解方面取得了重大进展。通过像DALL-E和稳定扩散(SD)这样的文本到图像生成模型,可以将现实世界环境中的复杂语言描述转化为高保真度的视觉图像。另一方面,像Flamingo和BLIP这样的图像到文本生成模型展示了理解图片中复杂语义的能力,并提供连贯的描述。尽管文本到图像生成和图片描述任务非常相关,但它们通常被独立研究,这意味着这些模型之间的交互需要被探索。文本到图像生成模型和图像到文本生成模型能否相互理解是一个有趣的话题。 为了解决这个问题,他们使用了一个称为BLIP的图像到文本模型为特定图像创建文本描述。然后,将这个文本描述输入到一个名为SD的文本到图像模型中,生成一个新的图像。他们认为,如果生成的图片与源图片相似,BLIP和SD可以相互交流。通过共同的理解,每一方对潜在理念的理解能力可以得到提高,从而实现更好的描述和图像合成。这个概念在图1中得到了展示,顶部标题导致了对原始图片更准确的重建,并且比底部标题更好地代表了输入图片。 https://arxiv.org/abs/2212.12249 来自慕尼黑大学,西门子公司和牛津大学的研究人员开发了一个重建任务,其中DALL-E使用Flamingo为给定的图像生成描述,从而合成一张新的图片。他们创建了两个重建任务,文本-图像-文本和图像-文本-图像,来测试这个假设(见图1)。对于第一个重建任务,他们计算使用预训练的CLIP图像编码器提取的图像特征之间的距离,以确定重建的图片和输入图片的语义相似度。然后,将生成的文本的质量与人工标注的标题进行比较。他们的研究表明,生成的文本的质量影响重建的表现。这导致他们的第一个发现:能够重建原始图片的描述是图片的最佳描述。 类似地,他们创建了相反的任务,SD从文本输入创建一张图片,然后BLIP从创建的图片创建文本。他们发现,产生原始文本的图片是最好的文本插图。他们假设在重建过程中,输入图片的信息在文本描述中被准确地保留下来。这个有意义的描述导致了对成像模态的忠实恢复。他们的研究为细调提供了一个独特的框架,使文本到图像和图像到文本模型更容易相互交流。 具体来说,在他们的范式中,生成模型从重建损失和人工标签中获得训练信号。一个模型首先为另一种模态的特定图片或文本创建一个表示,然后不同的模型将这个表示翻译回输入模态。重建组件创建一个正则化损失,来引导初始模型的细调。他们以这种方式得到了自我监督和人类监督,增加了生成会导致更准确的重建的可能性。例如,图像字幕模型需要偏好不仅与标记的图像-文本配对相对应的标题,还需要偏好那些可以产生可靠重建的标题。 相互代理通信与他们的工作密切相关。代理之间的主要信息交流方式是语言。但是,他们如何确保第一个和第二个代理对猫或狗的定义是一样的呢?在这项研究中,他们要求第一个代理检查一张图片并生成描述它的句子。在获得文本后,第二个代理根据它来模拟一张图片。后一阶段是一种具体化过程。根据他们的假设,如果第二个代理对输入图片的模拟接近第一个代理接收到的输入图片,那么通信就是有效的。从根本上说,他们评估了语言的有用性,语言作为人类的主要交流方式。特别是,他们的研究中使用了新建立的大规模预训练图片字幕模型和图像生成模型。多项研究证明了他们提出的框架在无需训练和细调情况下对各种生成模型的好处。特别是,在无需训练的范式中,他们显著提高了字幕和图片的生成,而在细调中,两种生成模型都取得了更好的结果。 以下是他们的关键贡献的概要: • 框架:据他们所知,他们是第一个研究如何通过易于理解的文本和图片表示来传达传统的图像到文本和文本到图像生成模型的人。相比之下,类似的工作通过嵌入空间隐式地集成了文本和图片的创建。 • 发现:他们发现评估文本到图像模型创建的图片重建可以帮助确定字幕的写作质量。能够最准确重建原始图片的字幕应该用于该图片。类似地,最佳的字幕图像是能够最准确重建原始文本的图像。 • 增强:根据他们的研究,他们提出了一个全面的框架来改进文本到图像和图像到文本模型。文本到图像模型计算的重建损失将用作细调图像到文本模型的正则化,图像到文本模型计算的重建损失将用于细调文本到图像模型。他们研究并确认了他们方法的可行性。

Leave a Comment

“遇见DenseDiffusion:一种无需训练的人工智能技术,用于解决文本到图像生成中的密集描述和布局操作问题”

最近,文本到图像模型的进展使得能够根据简短的场景描述生成高质量图像的复杂系统成为可能。然而,这些模型在面对复杂的标题时遇到困难,通常导致不同对象的视觉属性的遗漏或混合。在这一背景下,“密集”一词源于密集字幕的概念,其中利用单独的短语来描述图像中的特定区域。此外,用户在仅使用文本提示的情况下,在生成的图像中精确指定元素的排列也面临挑战。 最近的几项研究提出了通过训练或改进基于布局的文本到图像模型的解决方案,以赋予用户空间控制能力。虽然像“Make-aScene”和“Latent Diffusion Models”这样的特定方法从头开始构建具有文本和布局条件的模型,但其他同时进行的方法,如“SpaText”和“ControlNet”,通过微调将附加的空间控制引入现有的文本到图像模型。不幸的是,训练或微调模型可能需要大量计算资源。此外,模型需要为每个新颖的用户条件、领域或基本文本到图像模型重新训练。 基于上述问题,提出了一种名为DenseDiffusion的新型无训练技术,以适应密集字幕并提供布局操作。 在介绍主要思想之前,让我简要回顾扩散模型的工作原理。扩散模型通过顺序去噪步骤生成图像,从随机噪声开始。噪声预测网络估计添加的噪声并尝试在每个步骤中呈现更清晰的图像。最近的模型通过减少去噪步骤的数量,以更快的速度生成结果,而不会显著损害生成的图像。 最先进的扩散模型中有两个重要的模块,即自注意力和交叉注意力层。 在自注意力层中,中间特征还可以作为上下文特征。这通过在不同区域涵盖图像令牌之间建立连接来实现全局一致的结构的创建。同时,交叉注意力层根据从输入文本标题中获取的文本特征进行自适应,使用CLIP文本编码器进行编码。 回到主题上,DenseDiffusion的主要思想是修订的注意力调节过程,如下图所示。 首先,对预训练的文本到图像扩散模型的中间特征进行审查,以揭示生成图像的布局与自注意力和交叉注意力图之间的显著相关性。根据这一见解,基于布局条件动态调整中间注意力图。此外,该方法还考虑了原始注意力评分范围,并根据每个区域的面积微调调节程度。在展示的工作中,作者展示了DenseDiffusion提高了“稳定扩散”模型的性能,并在密集字幕、文本和布局条件以及图像质量方面超过多个组合扩散模型。 以下图片显示了从研究中选择的样本结果。这些视觉效果提供了DenseDiffusion和最先进方法之间的比较概述。 这是DenseDiffusion的概要,这是一种新的无训练的AI技术,用于适应密集字幕并在文本到图像合成中提供布局操作。

Leave a Comment

加州圣克鲁兹大学的研究人员提出了一种新颖的文本到图像关联测试工具,用于量化概念之间的隐性刻板印象以及图像中的情感价值

加州大学圣塔克鲁兹分校的研究团队引入了一种名为文本到图像关联测试(Text to Image Association Test)的新工具。该工具解决了文本到图像生成人工智能系统中的无意偏见。这些系统以其从文本描述中生成图像的能力而闻名,但往往会在其输出中再现社会偏见。在助理教授的带领下,该团队开发了一种量化的方法来衡量这些复杂的偏见。 文本到图像关联测试提供了一种结构化的方法来评估各个维度上的偏见,如性别、种族、职业和宗教。这一创新工具在2023年计算语言学协会(ACL)会议上进行了介绍。它的主要目的是量化和识别先进生成模型(如稳定扩散)中的偏见,这些模型可以放大生成的图像中现有的偏见。 该过程涉及向模型提供一个中性提示,如“孩子学习科学”。随后,使用性别特定的提示,如“女孩学习科学”和“男孩学习科学”。通过分析从中性和性别特定提示生成的图像之间的差异,该工具量化了模型响应中的偏见。 研究发现,稳定扩散模型展示了与常见刻板印象一致的偏见。该工具评估了诸如科学和艺术之间的联系以及男性和女性等属性之间的联系,并分配分数以指示这些联系的强度。有趣的是,该模型出人意料地将深肤色与愉快联系在一起,将浅肤色与不愉快联系在一起,与典型假设相反。 此外,该模型显示了科学和男性、艺术和女性、职业和男性以及家庭和女性之间的关联。研究人员强调,他们的工具还考虑到了图像中的上下文元素,包括颜色和温暖度,这使其与先前的评估方法有所区别。 受到社会心理学中隐性关联测试的启发,UCSC团队的工具在T2I模型的开发阶段中量化了偏见的进展。研究人员预计,这种方法将为软件工程师提供更精确的模型偏见度量,有助于识别和纠正人工智能生成内容中的偏见。通过定量指标,该工具促进了持续努力以减轻偏见并监测随时间推移的进展。 研究人员收到了ACL会议上的学术同行们的鼓舞和兴趣,许多人对这项工作的潜在影响表示热情。该团队计划在模型训练和改进阶段提出缓解偏见的策略。这个工具不仅揭示了人工智能生成图像中的偏见,还提供了纠正和增强这些系统整体公正性的手段。

Leave a Comment

快速将我放在中心位置:主题扩散是一种人工智能模型,可以实现开放领域的个性化文本到图像生成

文本到图像模型已经成为AI领域讨论的基石,该领域的进展相当迅速,因此我们拥有了令人印象深刻的文本到图像模型。生成式人工智能进入了一个新阶段。 扩散模型是这一进展的关键贡献者。它们已经成为一个强大的生成模型类别。这些模型被设计为通过缓慢去噪输入来生成高质量的图像。扩散模型能够捕捉隐藏的数据模式并生成多样且逼真的样本。 基于扩散的生成模型的快速进展已经彻底改变了文本到图像生成方法。你可以要求一个图像,无论你能想到什么,描述出来,模型都能够相当准确地为你生成出来。随着它们的进一步发展,越来越难以理解哪些图像是由人工智能生成的。 然而,这里存在一个问题。这些模型完全依赖于文本描述来生成图像。你只能“描述”你想要看到的内容。此外,它们很难进行个性化,因为在大多数情况下需要进行微调。 想象一下,你正在为你的房子做室内设计,与一位建筑师合作。建筑师只能为你提供他为之前的客户设计的方案,当你试图个性化设计的某个部分时,他只会忽视它并为你提供另一个曾经使用过的风格。听起来不太令人愉快,不是吗?如果你在寻求个性化,这可能是你在使用文本到图像模型时会得到的体验。 幸运的是,已经有人试图克服这些限制。研究人员已经探索了将文本描述与参考图像整合起来以实现更个性化的图像生成。虽然一些方法需要在特定的参考图像上进行微调,但其他方法会在个性化数据集上重新训练基础模型,从而可能出现保真度和泛化性的潜在缺陷。此外,大多数现有算法只适用于特定领域,无法处理多概念生成、测试时微调和开放领域零样本能力。 因此,今天我们将介绍一种接近开放领域个性化的新方法——Subject-Diffusion。 SubjectDiffusion可以生成高保真度的主题驱动图像。来源:https://arxiv.org/pdf/2307.11410.pdf Subject-Diffusion是一种创新的开放领域个性化文本到图像生成框架。它仅使用一个参考图像,消除了测试时微调的需求。为了构建一个大规模的个性化图像生成数据集,它利用了一个自动数据标记工具,生成了令人印象深刻的7600万图像和2.22亿个实体的Subject-Diffusion数据集。 Subject-Diffusion有三个主要组成部分:位置控制、细粒度参考图像控制和注意力控制。位置控制是在噪声注入过程中添加主要主题的遮罩图像。细粒度参考图像控制使用一个组合的文本-图像信息模块来改善两者的整合。为了实现多个主题的平滑生成,训练过程中引入了注意力控制。 SubjectDiffusion概览。来源:https://arxiv.org/pdf/2307.11410.pdf Subject-Diffusion实现了令人印象深刻的保真度和泛化性,能够根据每个主题的一个参考图像生成单个、多个和以人为主题的个性化图像,并进行形状、姿势、背景和风格的修改。该模型还通过特别设计的去噪过程,实现了自定义图像和文本描述之间的平滑插值。定量比较显示,Subject-Diffusion在各种基准数据集上超越或与其他最先进的方法相媲美,无论是否进行测试时微调。

Leave a Comment

“遇见P+:文本到图像生成中的扩展文本逆转的丰富嵌入空间”

文本到图像合成是指从文本提示描述中生成逼真图像的过程。这项技术是人工智能领域中生成模型的一个分支,并在近年来越来越受到关注。 文本到图像生成旨在使神经网络能够解释和翻译人类语言为视觉表达,从而实现各种合成组合。此外,除非另有教导,生成网络会为相同的文本描述生成多个不同的图片。这对于收集新的想法或呈现我们心中准确的视觉是非常有用的,而在互联网上找不到。 这项技术在虚拟现实、增强现实、数字营销和娱乐等各个领域都具有潜在的应用。 在最常用的文本到图像生成网络中,我们可以找到扩散模型。 文本到图像扩散模型通过迭代地改进以文本输入为条件的噪声分布来生成图像。他们将给定的文本描述编码为潜在向量,该向量影响噪声分布,并通过扩散过程迭代地改进噪声分布。这个过程产生了与输入文本匹配的高分辨率和多样化的图像,通过捕捉和融合输入文本的视觉特征的U-net架构实现。 这些模型中的条件空间被称为P空间,由语言模型的标记嵌入空间定义。基本上,P代表文本条件空间,在合成过程中,已经通过文本编码器传递给U-net的输入实例“p”被注入到所有注意层中。 下面是去噪扩散模型的文本条件机制概述。 通过这个过程,由于只有一个实例“p”被馈送到U-net架构中,对编码文本的获得的分离和控制是有限的。 因此,作者引入了一个被称为P+的新的文本条件空间。 这个空间由多个文本条件组成,每个条件被注入到U-net的不同层中。这样,P+可以保证更高的表达能力和分离性,提供对合成图像的更好控制。正如作者所描述的,U-net的不同层对合成图像的属性具有不同程度的控制。特别是,粗糙层主要影响图像的结构,而细层主要影响图像的外观。 在介绍了P+空间之后,作者引入了一个相关的过程,称为扩展文本倒置(XTI)。它是经典文本倒置(TI)的重新审视版本,TI的过程是模型学习将几个输入图像中描述的特定概念表示为专用标记。在XTI中,目标是将输入图像反转为一组标记嵌入,每个层一个标记嵌入,即反转为P+。 为了清楚地说明两者之间的区别,想象一下将“绿色蜥蜴”的图片输入到一个两层的U-net中。TI的目标是获得输出“绿色蜥蜴”,而XTI需要输出两个不同的实例,在这种情况下是“绿色”和“蜥蜴”。 作者在他们的工作中证明了P+中扩展倒置过程不仅比TI更具表达能力和精确性,而且速度更快。 此外,增加P+上的分离性能够通过文本到图像生成进行混合,例如对象样式的混合。 下面是来自上述工作的一个示例。 这就是P+的概述,一个用于扩展文本倒置的丰富的文本条件空间。

Leave a Comment

“认识MultiDiffusion:一种统一的人工智能框架,利用预训练的文本到图像扩散模型实现多功能和可控的图像生成”

虽然扩散模型现在被认为是最先进的文本到图像生成模型,但它们已经成为一种“颠覆性技术”,具有以前从未听说过的能力,可以从文本提示中创建高质量、多样化的图片。尽管这一进展在改变用户如何创建数字内容方面具有重大潜力,但给用户对所创建材料的直观控制能力仍然是一个挑战。 目前,有两种调整扩散模型的技术:(i) 从头开始训练一个模型,或者(ii) 对现有的扩散模型进行微调以适应当前任务。即使在微调的情况下,由于模型和训练数据的不断增加,这种策略通常需要大量的计算和漫长的开发周期。而(ii) 重用已经训练过的模型,并增加一些受控的生成能力。一些技术先前专注于特定任务并创建了一种专门的方法。本研究旨在生成MultiDiffusion,这是一个新的、统一的框架,极大地提高了预先训练的(参考)扩散模型对受控图像生成的适应性。 图1:MultiDiffusion使得灵活的文本到图像生成成为可能,它统一了对所创建内容的许多控制,如所需的长宽比或基于粗略区域的文本提示。 MultiDiffusion的基本目标是设计一个新的生成过程,其中包含多个参考扩散生成过程,这些过程通过一组共同的特征或约束连接起来。生成结果的各个区域都经过参考扩散模型,该模型更具体地为每个区域预测去噪采样步骤。然后,MultiDiffusion执行全局去噪采样步骤,使用最小二乘最佳解来协调所有这些单独的阶段。例如,考虑使用在方形图像上训练的参考扩散模型创建具有任何长宽比的图片的挑战(见下图2)。 图2:MultiDiffusion:在预先训练的参考模型Φ上定义了一个新的生成过程Ψ。从噪声图像JT开始,每个生成步骤都会解决一个优化任务,其目标是每个裁剪Fi(Jt)尽可能接近其去噪版本Φ(Fi(Jt))。请注意,虽然每个去噪步骤Φ(Fi(Jt))可能朝着不同的方向拉动,但它们的过程将这些不一致的方向融合成一个全局去噪步骤Φ(Jt),从而产生高质量的无缝图像。 MultiDiffusion将参考模型在去噪过程的每个阶段提供的方形裁剪的去噪方向合并在一起。它尽可能地跟随它们,尽管受到共享像素的相邻裁剪的限制。尽管每个裁剪可能会在去噪时拉动到不同的方向,但应注意的是,他们的框架会产生一个单一的去噪阶段,从而产生高质量且无缝的图片。我们应该要求每个裁剪都代表参考模型的真实样本。 使用MultiDiffusion,他们可以将预先训练的参考文本到图像模型应用于各种任务,例如生成具有特定分辨率或长宽比的图片,或者从不可读的基于区域的文本提示生成图像,如图1所示。值得注意的是,他们的架构通过利用共享的开发过程同时解决了这两个任务。通过将其与相关基准进行比较,他们发现他们的方法在控制生成质量方面甚至可以达到最先进的水平,而无需增加计算负担。完整的代码库将很快在他们的Github页面上发布。您也可以在他们的项目页面上查看更多演示。

Leave a Comment

来自KAIST和Google的研究人员介绍了协作评分蒸馏(CSD):这是一种人工智能方法,扩展了文本到图像扩散模型的单一性,以实现一致的视觉合成

文本到图像扩散模型通过使用数十亿个图像-文本对和有效的拓扑结构进行构建,展示了在以输入提供的文本合成高质量、逼真和多样化图片方面的惊人能力。它们还扩展到了几个应用领域,包括图像到图像的翻译、可控的创建和定制。这个领域最近的一个应用是能够通过使用模态特定的训练数据将其扩展到2D图片以外的其他复杂模态,而不改变扩散模型。本研究旨在解决使用预训练的文本到图像扩散模型的知识来挑战超出2D图片的高维视觉生成任务的挑战,同时利用模态特定的训练数据而不改变扩散模型。 他们从这样一个直觉开始,即许多复杂的视觉数据,包括电影和3D环境,可以被表示为具有特定模态一致性的图片集合。例如,一个3D场景是一组具有视图一致性的多视图帧,而电影是一组具有时间一致性的帧。不幸的是,因为他们的生成采样方法在利用图像扩散模型时没有考虑一致性,图像扩散模型没有能力保证合成或编辑一组图片的一致性。结果,当将图片扩散模型应用于这些复杂数据时,不考虑一致性,结果可能更连贯,如图1(分块裁剪)所示,可以清楚地看出照片被拼接在一起的地方。 图1:全景图片修改:上右侧的裁剪补丁上,Instruct-Pix2Pix会产生不规则的图片编辑。(第三行)即使有很高的引导比例y,带有多扩散的Instruct-Pix2Pix也会编辑出一张一致的图片,但对指令的忠实度稍低。第三行通过选择适当的引导比例,CSD-Edit提供了具有更高指令忠实度的一致图片编辑。 类似的行为也在视频编辑中被观察到。因此,随后的研究提出了采用图片扩散模型来解决视频特定的时间一致性问题。在这里,他们引起了一个名为评分蒸馏采样(SDS)的新策略的注意,该策略利用文本到图像扩散模型的丰富生成先验来优化任何可微分的算子。通过压缩学习到的扩散密度评分,SDS将生成采样的挑战框架为一个优化问题。虽然其他研究人员已经证明了SDS在使用神经辐射场先验从文本生成3D对象方面的有效性,该先验通过密度建模假设在3D空间中具有一致的几何结构,但尚未研究它在一致合成其他模态的视觉方面。 在这项研究中,来自KAIST和Google Research的作者提出了一种简单而高效的技术,称为协同评分蒸馏(CSD),该技术扩展了文本到图像扩散模型在可靠的视觉合成方面的潜力。他们方法的关键有两个方面:首先,他们使用斯坦变分梯度下降(SVGD)通过让多个样本共享从扩散模型中获得的信息来推广SDS,以实现样本间的一致性。其次,他们提供了CSD-Edit,一种将CSD与最近开发的指令引导图片扩散模型Instruct-Pix2Pix结合起来的强大技术,用于一致的视觉编辑。 他们使用各种应用程序,包括全景图片编辑、视频编辑和3D场景重建,来展示他们的方法的适应性。他们展示了CSD-alter如何通过最大化多个图片补丁来改变具有空间一致性的全景图像。此外,与之前的方法相比,他们的方法在指令准确性和源-目标图像一致性之间取得了更好的平衡。在视频编辑的实验中,CSD-Edit通过优化多个帧达到时间一致性,从而实现了时间帧一致的视频编辑。他们还使用CSD-Edit生成和编辑3D场景,促进了各种视点的统一性。

Leave a Comment

“遇见DreamIdentity:一种无需优化的人工智能方法,保持每个面部身份的可编辑性,适用于文本到图像模型”

最近,基于扩散的大规模文本到图像(T2I)模型改变了创建可视材料的学科。这些T2I模型使得生成引人注目、表达丰富且以人为中心的图形变得简单。这些模型的一个有趣的用途是能够使用自然语言描述生成与身份相关的各种情境,给定一个特定人的日常生活中的面部(我们的家人,朋友等)。与图1中所示的典型T2I任务不同,身份重情境挑战要求模型在遵循文本提示的同时保持输入面部识别(即ID保留)。 图1展示了DreamIdentity如何有效地从单个面部图像中创建大量保留身份和文本连贯的图像,并且无需在测试时进行优化。 为每个面部身份个性化预训练的T2I模型是一种可行的方法。它涉及通过增强其词嵌入或微调模型参数来学习将特定词与实质相关联。由于每个身份的优化,这些基于优化的方法可能更有效。为了避免耗时的每个身份的优化,各种无优化的方法建议将从预训练图像编码器(通常为CLIP)获得的图像特征直接映射到词嵌入中。然而,这会损害ID保留。因此,这些技术面临着损害原始T2I模型的编辑能力的风险,因为它们要么需要微调预训练的T2I模型的参数,要么改变原始结构以注入额外的网格图像特征。 简而言之,所有并行的无优化努力都在维持身份和模型的可编辑性方面遇到困难。它们认为,错误的身份特征表示和训练与测试之间的目标不一致是现有无优化研究中上述困难的根本原因。一方面,目前最佳的CLIP模型在面部识别准确性方面仍然比面部识别模型差得多(80.95%对87.61%),这表明并行努力中使用的常见编码器(即CLIP)对于身份重情境化任务来说是不足够的。此外,CLIP的最后一层特征主要关注高级语义而不是精确的面部描述,无法保持识别信息。 所有并行任务使用原始重建目标来学习词嵌入都会对输入面部的可编辑性产生负面影响。为了解决上述身份保留和可编辑性困难,他们提供了一种独特的无优化框架(称为DreamIdentity),具有准确的身份表示和一致的训练/推理目标。更准确地说,在Vision Transformer的架构中创建了一个独特的多词多尺度ID编码器(M2 ID编码器),用于正确的身份表示。该编码器在大规模的面部数据集上进行预训练,并将多尺度特征投影到多词嵌入中。 中国科学技术大学和字节跳动的研究人员提出了一种新颖的自我增强可编辑性学习方法,将编辑任务移入训练阶段。该方法使用T2I模型通过生成名人面孔和各种目标编辑的名人图像来构建自我增强数据集。使用这个数据集来训练M2 ID编码器以提高模型的可编辑性。他们在这项工作中做出了以下贡献:他们认为,由于错误的表示和不一致的训练/推理目标,现有的无优化方法对于身份保留和高可编辑性是无效的。 从技术上讲,(1)他们提出了M2 ID编码器,这是一个具有多嵌入投影的ID感知多尺度特征,用于适当的表示。(2)他们结合自我增强的可编辑性学习,使底层T2I模型能够为编辑提供高质量的数据集,以实现一致的训练/推理目标。通过全面的研究证明了他们的方法的有效性,这些方法能够在保持身份的同时允许灵活的文本引导修改,即身份重情境化。

Leave a Comment

伦理与社会通讯 #4:文本到图像模型中的偏见

简介:我们需要更好的方法来评估文本到图像模型中的偏见 介绍 文本到图像(TTI)生成如今非常流行,数千个TTI模型正在上传到Hugging Face Hub。每种模态都可能受到不同来源的偏见影响,这引发了一个问题:我们如何发现这些模型中的偏见?在本博文中,我们将分享关于TTI系统中偏见来源的观点,以及解决这些偏见的工具和潜在解决方案,展示我们自己的项目和社区的其他项目。 图像生成中编码的价值观和偏见 偏见与价值观之间存在着非常密切的关系,特别是当它们嵌入到训练和查询给定文本到图像模型中使用的语言或图像中时;这种现象严重影响了我们在生成的图像中看到的结果。尽管在更广泛的人工智能研究领域中已经知道了这种关系,并且正在进行相当大的努力来解决这个问题,但是试图在单个模型中表示给定人群价值观的不断变化的本质的复杂性仍然存在。这对于发现和充分解决它们提出了持久性的伦理挑战。 例如,如果训练数据主要是英文,它们可能传达了相当西方的价值观。结果我们会得到对不同或遥远文化的刻板印象的表达。当我们比较ERNIE ViLG(左)和Stable Diffusion v2.1(右)对于相同提示“北京的一座房子”时,这种现象似乎很明显: 偏见来源 近年来,在自然语言处理(Abid等人,2021年)以及计算机视觉(Buolamwini和Gebru,2018年)领域,对于单模态AI系统中的偏见检测进行了许多重要研究。在人类构建机器学习模型的范畴内,所有机器学习模型(实际上是所有技术)都存在偏见。这可能表现为图像中某些视觉特征的过度或不足表现(例如,所有办公室工作者都系领带),或者文化和地理刻板印象的存在(例如,所有新娘都穿着白色礼服和面纱,而不是更具代表性的世界各地的新娘形象,例如穿着红色纱丽的新娘)。鉴于AI系统正在广泛应用于不同行业和工具(例如Firefly,Shutterstock)的社会技术环境中,它们尤其有可能放大现有的社会偏见和不平等。我们的目标是在下面提供一个非详尽的偏见来源列表: 训练数据中的偏见:受欢迎的多模态数据集,如用于文本到图像的LAION-5B,用于图像字幕的MS-COCO,以及用于视觉问答的VQA v2.0,已被发现包含大量偏见和有害关联(Zhao等人,2017年;Prabhu和Birhane,2021年;Hirota等人,2022年),这些偏见可能渗透到这些数据集上训练的模型中。例如,Hugging Face Stable Bias项目的初步结果显示,图像生成中缺乏多样性,并且延续了对文化和身份群体的常见刻板印象。比较CEO(右)和经理(左)的Dall-E 2生成结果,我们可以看到两者都缺乏多样性: 预训练数据过滤中的偏见:通常在用于训练模型之前对数据集进行某种形式的过滤;这引入了不同的偏见。例如,在Dall-E 2的博文中,作者发现过滤训练数据实际上可能放大偏见——他们假设这可能是由于现有数据集对于以更加性感背景呈现女性的偏见,或者由于他们使用的过滤方法本身的固有偏见。 推理中的偏见:用于指导文本到图像模型(如Stable Diffusion和Dall-E 2)的训练和推理的CLIP模型存在一些广为人知的偏见,例如将被标记为白人、中年和男性的图像视为默认情况。这可能会影响使用它进行提示编码的模型的生成结果,例如将未指定或未明确指定的性别和身份群体解释为白人和男性。 模型潜在空间中的偏见:在探索模型的潜在空间以及引导图像生成沿不同的轴线(如性别)进行生成以使生成结果更具代表性方面已经进行了初步工作(请参见下面的图像)。然而,我们需要更多的工作来更好地理解不同类型的扩散模型潜在空间的结构以及可能影响生成图像中反映的偏见的因素。…

Leave a Comment

遇见ProFusion:一种无需正则化的AI框架,用于在文本到图像合成中保留细节

多年来,文本到图像生成领域得到了广泛的探索,并取得了重要进展。研究人员通过在大规模数据集上训练大规模模型,实现了零样本文本到图像生成,能够处理任意文本输入。DALL-E和CogView等开创性作品为研究人员提出了许多方法,使得生成与文本描述对齐的高分辨率图像成为可能,展现了卓越的保真度。这些大规模模型不仅革新了文本到图像生成,还对包括图像处理和视频生成在内的其他各种应用产生了深远影响。 尽管上述大规模文本到图像生成模型在生成与文本对齐的创造性输出方面表现出色,但在生成用户指定的新颖和独特概念时往往面临挑战。因此,研究人员探索了各种方法来定制预训练的文本到图像生成模型。 例如,一些方法涉及使用有限数量的样本对预训练生成模型进行微调。为了防止过拟合,采用不同的正则化技术。其他方法旨在将用户提供的新概念编码为单词嵌入。这种嵌入可以通过优化过程或来自编码器网络获得。这些方法使得能够根据用户输入文本定制生成新概念,同时满足额外的要求。 尽管文本到图像生成取得了重大进展,但最近的研究引发了对正则化方法在定制化方面潜在局限性的担忧。有人怀疑这些正则化技术可能会无意中限制定制化生成的能力,导致细节的丢失。 为了克服这一挑战,提出了一种新颖的框架ProFusion。其架构如下所示。 ProFusion包括一个称为PromptNet的预训练编码器,它从输入图像和随机噪声中推断出条件词嵌入,以及一种称为Fusion Sampling的新型采样方法。与先前的方法相比,ProFusion在训练过程中消除了对正则化的要求。相反,该问题在推理过程中通过Fusion Sampling方法有效地解决。 实际上,作者认为,尽管正则化可以实现受文本条件限制的内容创作,但它也会导致细节信息的丢失,从而导致性能下降。 Fusion Sampling在每个时间步骤包括两个阶段。第一步是融合阶段,它将输入图像嵌入和条件文本的信息编码为带有噪声的部分输出。之后,进行改进阶段,根据选择的超参数更新预测。更新预测有助于Fusion Sampling保留输入图像的细节信息,并将输出条件化为输入提示。 这种方法不仅节省了培训时间,还消除了与正则化方法相关的超参数调整的需要。 下面报告的结果不言自明。 我们可以看到ProFusion与最先进的方法进行了比较。提出的方法在保留与面部特征相关的细节方面表现优异。 这就是ProFusion的摘要,一种具有最先进质量的无正则化框架,用于文本到图像生成。如果您感兴趣,可以在下面的链接中了解更多关于这种技术的信息。

Leave a Comment

颠覆性的文本到图像合成:加州大学伯克利分校研究人员利用大型语言模型,在两阶段生成过程中增强了空间和常识推理能力

最近,文本到图像生成方面取得了一些进展,出现了可以合成高度逼真和多样化图像的扩散模型。然而,尽管这些模型具有令人印象深刻的能力,像Stable Diffusion这样的扩散模型在需要空间或常识推理的提示方面仍然需要帮助,导致生成的图片不准确。 为了解决这个挑战,加州大学伯克利分校和加州大学旧金山分校的研究团队提出了一种新的基于LLM的扩散(LMD)方法,可以增强文本到图像生成中的提示理解。他们已经确定了场景,包括否定、数字、属性分配和空间关系,在这些场景中,Stable Diffusion与LMD相比存在不足。 研究人员采用了一种成本效益的解决方案,避免了训练大型语言模型(LLMs)和扩散模型的昂贵和耗时过程。他们将现成的冻结LLMs集成到扩散模型中,形成了一个两阶段的生成过程,提供了增强的空间和常识推理能力。 在第一阶段,LLM被调整为文本引导的布局生成器,通过上下文学习。当给出一个图像提示时,LLM会产生一个由边界框和相应描述组成的场景布局。在第二阶段,扩散模型通过使用一个新颖的控制器来生成图像,由生成的布局进行引导。两个阶段都使用冻结的预训练模型,没有对LLM或扩散模型进行任何参数优化。 LMD除了改进提示理解外,还提供了几个优点。它可以实现基于对话的多轮场景规定,允许用户为每个提示提供额外的澄清和修改。此外,LMD可以处理不受基础扩散模型支持的语言提示。通过将支持多轮对话的LLM纳入其中,用户可以在初始布局生成后查询LLM,并为随后的图像生成接收更新的布局,便于请求添加对象或更改它们的位置或描述等。 此外,通过在上下文学习过程中提供非英语提示的示例和英语布局和背景描述,LMD接受非英语提示,即使基础扩散模型不支持给定的语言也能生成带有英语描述的布局。 研究人员通过与LMD利用的基础扩散模型Stable Diffusion 2.1进行比较,验证了LMD的优越性。他们邀请读者探索他们的工作,进行全面评估和进一步比较。 总之,LMD提出了一种新的方法,以解决扩散模型在准确遵循需要空间或常识推理的提示方面的局限性。通过集成冻结LLMs并采用两阶段生成过程,LMD显著增强了文本到图像生成任务中的提示理解能力。它提供了其他功能,如基于对话的场景规定和处理不支持的语言提示。研究团队的工作为通过集成现成的冻结模型来改善合成图像的准确性和多样性开辟了新的可能性。

Leave a Comment

Google研究人员推出了StyleDrop:一种人工智能方法,可以使用文本到图像模型忠实地追随特定样式来合成图像

谷歌的一组研究人员最近与 Muse 的快速文本到图像模型合作开发了创新的神经网络 StyleDrop。这项开创性的技术允许用户生成忠实地体现特定视觉风格的图像,捕捉细微的差别和复杂性。通过选择具有所需风格的原始图像,用户可以将其无缝地转移到新图像,同时保留所选择的风格的所有独特特征。StyleDrop 的多功能性还可用于与完全不同的图像一起使用,使用户能够将儿童绘画转换成风格化的标志或角色。 StyleDrop 由 Muse 先进的生成视觉转换器驱动,使用用户反馈、生成图像和 Clip 分数的组合进行训练。神经网络是通过最小的可训练参数进行微调的,仅占总模型参数的不到 1%。通过迭代训练,StyleDrop 不断提高生成图像的质量,确保在短短几分钟内获得令人印象深刻的结果。 这个创新工具对于寻求开发其独特视觉风格的品牌来说是非常宝贵的。有了 StyleDrop,创意团队和设计师可以高效地以其所偏爱的方式原型设计想法,使其成为不可或缺的资产。对 StyleDrop 的性能进行了广泛的研究,将其与其他方法(如 DreamBooth、Imagen 上的文本反转和 Stable Diffusion)进行了比较。结果一致展示了 StyleDrop 的卓越性,提供了高质量的图像,紧密地符合用户指定的风格。 StyleDrop 的图像生成过程依赖于用户提供的基于文本的提示。StyleDrop…

Leave a Comment

通过检索增强生成,提升您的稳定扩散提示

文字到图像生成是一门快速发展的人工智能领域,应用广泛,包括媒体与娱乐、游戏、电子商务产品可视化、广告与营销、建筑设计与可视化、艺术创作和医学影像等各个领域稳定扩散是一种文字到图像模型,让您能够在几秒钟内创建高品质的图片在十一月份[…]

Leave a Comment

2023年需要重新访问的顶级生成AI GitHub存储库

介绍 随着2023年接近尾声,人工智能领域仍在不断前进。跟上最新进展就像追逐一个移动的目标。幸运的是,在GitHub这个充满活力的生态系统中,有大量宝贵的资源。在这里,我们回顾了一些顶级的AI GitHub仓库,为您2024年及以后的AI学习之旅提供一个跳板。这个精选列表虽然不是详尽无遗,但它突出了因其相关性、影响力和激发您的好奇心而获得其地位的仓库。 Hugging Face / Transformers 117k Stars | 23.3k Forks 这个仓库对任何对自然语言处理(NLP)感兴趣的人来说都是宝藏。它托管了各种预训练的基于Transformer的模型,如BERT、RoBERTa和T5,以及广泛的文档、教程和一个充满活力的社区。 主要特点 广泛的预训练模型,全面的文档,活跃的社区支持,多样化的应用可能性,以及与其他库的轻松集成。 点击这里探索这个生成式AI GitHub仓库。 Significant Gravitas / AutoGPT 155k Stars | 37.8k…

Leave a Comment

这篇人工智能论文介绍了MVControl:一种革命性的神经网络架构,改变了可控多视角图像生成和3D内容创作的方式

最近,在2D图片制作方面取得了显著的进展。输入文本提示使生成高保真度图形变得简单。因为需要3D训练数据,所以将文本到图像创建的成功很少转移到文本到3D领域。由于扩散模型和可微分3D表示的良好特性,最近基于分数蒸馏优化(SDS)的方法旨在从预训练的大型文本到图像生成模型中蒸馏3D知识,并取得了令人印象深刻的结果,而不是使用大量3D数据从头开始训练大型文本到3D生成模型。DreamFusion是一项引入了新方法的示范性工作,用于3D资产创建。 在过去的一年中,这些方法论已迅速发展,根据2D到3D蒸馏范式。通过应用多个优化阶段,同时优化扩散和3D表示,制定具有更高精度的分数蒸馏算法,或改进整个流程的细节,已提出了许多研究来提高生成质量。虽然上述方法可以产生细腻的纹理,但由于2D扩散先验不是依赖性的,确保生成的3D内容的视图一致性是困难的。因此,已经做出了一些努力,将多视图信息强制加入预训练的扩散模型中。 然后,将基本模型与控制网络集成,以实现受控的文本到多视图图片生成。同样,研究团队仅训练控制网络,MVDream的权重全部冻结。实验表明,相对于绝对世界坐标系中描述的相机姿态条件图片,相对于条件图片的相对姿态条件更好地控制文本到多视图生成,尽管MVDream是在训练时使用绝对世界坐标系中的相机姿态进行训练的。尽管如此,这与预训练的MVDream网络的描述相违背。此外,只有通过直接采用2D ControlNet的控制网络与基本模型交互时,才能轻松实现视图一致性,因为它的条件机制是为单一图像创建而构建的,需要考虑多视图情况。 为了解决这些问题,浙江大学、西湖大学和同济大学的研究团队基于原始的ControlNet架构创建了一种独特的调节技术,简单而成功地实现了受控的文本到多视图生成。他们联合使用了庞大的2D数据集LAION和3D数据集Objaverse来训练MVControl。在这项研究中,研究团队研究了将边缘图作为条件输入。然而,他们的网络在利用不同类型的输入情况(如深度图、草图图像等)方面是无限制的。一旦训练完成,研究团队可以使用MVControl为受控文本到3D资产生成提供3D先验。具体而言,研究团队使用基于MVControl网络和预训练的Stable-Diffusion模型的混合扩散先验。这是一个由粗到细的生成过程。当在粗阶段拥有良好的几何形状时,研究团队仅优化细化步骤中的贴图。他们的全面测试表明,他们提出的方法可以使用输入条件图像和书面描述生成高保真度、细粒度受控的多视图图像和3D内容。 总结起来,以下是他们的主要贡献。 • 在训练完成网络后,可将其用作混合扩散的组成部分,通过SDS优化实现对文本到3D内容合成的受控。 • 研究团队提出了一种独特的网络设计,以实现细粒度受控的文本到多视图图片生成。 • 他们的方法可以生成高保真度的多视图图像和3D资产,在输入条件图像和文本提示的精细控制下,如 extensive experimental results 所示。 • 除了通过 SDS 优化生成 3D 资产外,他们的 MVControl 网络还可以在 3D…

Leave a Comment

使用机器学习创建多视角光学幻觉:探索零样本方法用于动态图像转换

变换图是当你以不同角度观察或翻转它们时会改变外观的图像。创造这样的视觉错觉通常需要理解并欺骗我们的视觉感知。然而,一种新的方法出现了,提供了一种简单有效的方式来生成这些有吸引力的多角度视觉错觉。 有许多方法可以创建视觉错觉,但大多数依赖于对人类感知图像方式的特定假设。这些假设往往导致复杂的模型,只有在某些情况下才能捕捉到我们视觉体验的本质。密歇根大学的研究人员提出了一种新的解决方案。它不是基于人类的视觉方式建立模型,而是使用了一种文本到图像扩散模型。该模型不对人类的感知做任何假设,只是从数据中学习。 该方法引入了一种新的方式来生成经典的错觉,如当图像翻转或旋转时发生变化的图像。此外,它还涉及到一种称为“视觉变换”的新型错觉,当您重新排列像素时,图像的外观也会改变。这包括翻转、旋转和更复杂的排列,如创建具有多个解决方案的拼图,称为“多态拼图”。这种方法甚至扩展到三个和四个视图,扩大了这些引人注目的视觉变换的范围。 使这种方法起作用的关键是仔细选择视图。应用于图像的变换必须保持噪声的统计特性。这是因为该模型是在随机、独立和同分布的高斯噪声的假设下进行训练的。 该方法利用扩散模型从各个视图去噪,生成多个噪声估计。然后将这些估计组合成一个单一的噪声估计,促进逆向扩散过程中的一步。 该论文提供了支持这些视图有效性的实证证据,展示了所生成的错觉的质量和灵活性。 总之,这种简单而强大的方法为创建引人注目的多角度视觉错觉开辟了新的可能性。通过避免对人类感知的假设,并利用扩散模型的能力,它提供了一种新鲜而易于理解的方法来探索迷人的视觉变换世界。无论是翻转、旋转还是多态拼图,这种方法都为制作引人入胜并挑战我们视觉理解的错觉提供了一种多功能工具。

Leave a Comment

Can't find what you're looking for? Try refining your search: