HuggingFace Research推出LEDITS：基于DDPM反演和增强的语义引导的真实图像编辑的下一个进化阶段

HuggingFace Research推出LEDITS：基于DDPM反演和增强的语义引导的真实图像编辑的下一个进化阶段四海第1张

由于文本引导扩散模型在图片创作中展现出的出色逼真度和多样性，人们对此产生了极大的兴趣。随着大规模模型的引入，用户在创建照片时拥有了无与伦比的创作灵活性。因此，一些正在进行的研究项目专注于探索如何使用这些强大的模型进行图片操作。最近的研究进展展示了使用纯文本扩散技术进行基于文本的图片操作。其他研究人员最近提出了语义引导(SEGA)的概念用于扩散模型。

SEGA展示了先进的图片组合和编辑技能，并且在当前生成过程中无需外部监督或计算。SEGA相关的概念向量被证明是可靠、独立、灵活且单调缩放的。其他研究还探讨了基于语义理解创建图片的不同方法，例如Prompt-to-Prompt，它使用模型的交叉注意力层中的语义数据将像素与文本提示符令牌连接起来。尽管SEGA不需要基于令牌的条件，并且允许多种语义改变的组合，但是在交叉注意力图上的操作可以对生成的图片产生多样化的改变。

现代技术必须用于反转给定图片，以进行基于文本引导的真实图片编辑，这是一个重大障碍。为了实现这一点，需要找到一系列噪声向量，当作为扩散过程的输入时，可以产生输入图片。在大多数基于扩散的编辑研究中，使用了一种从单一噪声图到生成图片的确定性映射技术，称为去噪扩散隐式模型(DDIM)。其他研究人员提出了一种针对去噪扩散概率模型(DDPM)方案的反转方法。

对于DDPM方案中用于扩散生成过程的噪声图，他们提出了一种计算噪声图的新方法，使其与传统DDPM采样中使用的噪声图有所不同，具有更大的方差，并且在时间步长上更相关。与DDIM基于反转的技术相比，友好编辑的DDPM反转在基于文本的编辑任务上展示出了最先进的结果（单独使用或与其他编辑方法结合），并且可以为每个输入图片和文本生成多种输出。在这篇综述中，来自HuggingFace的研究人员想要随意研究SEGA和DDPM反转方法或LEDITS的配对和集成。

在LEDITS中，语义引导扩散生成机制进行了修改。这个更新将SEGA方法论扩展到了真实照片上。它提供了一种结合了两种方法同时编辑能力的编辑策略，并且展示了使用尖端技术的竞争性定性结果。他们还提供了一个HuggingFace演示以及相关代码。