Press "Enter" to skip to content

这篇来自美国东北大学和麻省理工学院的AI论文开发了可解释概念滑块,以增强扩散模型中的图像生成控制

艺术用户通常需要对生成的图片中所代表的视觉特征和概念进行更精细的控制,但目前这是不可实现的。使用简单的文本提示来准确修改连续的属性,如个人年龄或天气的强度,可能会面临挑战。这种约束条件使得制作者难以更好地反映他们的愿景来修改图片。东北大学、麻省理工学院和一位独立研究人员的研究团队在本研究中回应了这些需求,提出了可解释的“概念滑块”,它们可以在扩散模型内实现精细的概念操作。他们的方法为艺术家提供了高保真度的图片编辑和生成控制。研究团队将以开放源代码的形式提供他们训练的滑块和代码。概念滑块为其他方法需充分解决的问题提供了几种解决方案。

许多图片属性可以通过修改提示来直接控制,但由于输出对提示-种子组合敏感,修改提示通常会显著改变图像的整体结构。通过后期方法如PromptToPrompt和Pix2Video,可以修改交叉注意力和翻转扩散过程,以在图像内部改变视觉概念。然而,这些方法只能容纳少数同时修改,并且需要为每个新概念进行独立的推断步骤。与学习简单、可推广的控制不同,研究团队必须为特定图像设计一个适当的提示。如果没有适当地提示,可能会造成概念纠缠,如在改变种族的同时改变年龄。

另一方面,概念滑块提供了简单的即插即用适配器,它们轻量且适用于预训练模型。这使得可以在单次推断运行中准确而连续地控制所需的概念,同时减小纠缠和提高效率。每个概念滑块都是一个具有低秩的扩散模型修改。研究团队发现低秩约束是概念精准控制的重要组成部分:低秩训练确定了最小的概念子空间,并产生了高质量、精确且解耦的编辑结果,而没有低秩正则化的微调则会降低精度和生成图像质量。这种低秩框架不适用于基于后期的图片修改技术,后者针对的是单个照片而非模型参数。

概念滑块与之前依赖于文本的概念编辑技术不同,可以改变不只是由书面描述表示的视觉概念。尽管研究团队可以为新的基于图像的概念引入新的标记,但以图片为基础的模型自定义技术对于图片编辑来说是具有挑战性的。另一方面,概念滑块允许艺术家使用几个成对的照片来指定所需的概念。然后,概念滑块将泛化这个视觉概念,并将其应用于其他图像,即使在无法用言语表达变化的图像上也可以。 (见图1)以前的研究表明,其他生成式图片模型,如GAN,包括产生高度解耦控制的潜在区域。

图1 显示了该技术如何在扩散参数空间中查找低秩方向,以实现对具有最小干扰其他特质的聚焦概念控制,给定一组有限的文本提示或匹配的图片数据。这些方向可以用于复杂的多属性控制,并可以通过由艺术家创建的对立文本概念或可视化的配对来形成。通过将解耦的StyleGAN潜变量转化为扩散模型并修复稳定扩散输出中的扭曲手,研究人员展示了他们方法的有效性。

具体而言,已经证明StyleGAN样式空间神经元能够对难以言语表述的图片的几个重要特征进行精细控制。研究团队展示了将来自StyleGAN在FFHQ人脸照片上训练的样式空间的潜在方向转移到扩散模型中开发概念滑块的可行性,进一步展示了他们的技术的潜力。有趣的是,他们的方法成功地适应了这些潜变量,即使它们来自人脸数据集,也能提供对不同图片生成的微妙样式控制。这表明扩散模型可以表达GAN潜变量中复杂的视觉概念,即使这些概念没有书面描述。

研究人员表明,概念滑块的表现力足以处理两个有用的应用:改善逼真度和纠正手部畸形。尽管生成模型在生成逼真图像合成方面取得了巨大进展,但最新的扩散模型(如Stable Diffusion XL)仍然容易产生变形的脸部、浮动物体和扭曲的视角,此外,手部也可能存在解剖学上不合理的额外或缺失的手指。研究团队通过感知用户研究确认,两个概念滑块,一个用于“固定手部”,另一个用于“逼真图像”,在不改变图像内容的情况下,显著增加了感知逼真度。

概念滑块可以组装和拆卸。研究团队发现,即使创建超过50个不同的滑块,也不会牺牲输出质量。这种适应性为艺术家打开了微妙图片控制的新世界,使他们能够结合许多文本、视觉和GAN定义的概念滑块。他们的技术比仅限于文本的编辑功能更为复杂,因为它超越了正常提示令牌的限制。

Leave a Reply

Your email address will not be published. Required fields are marked *