Press "Enter" to skip to content

快速将我放在中心位置:主题扩散是一种人工智能模型,可以实现开放领域的个性化文本到图像生成

快速将我放在中心位置:主题扩散是一种人工智能模型,可以实现开放领域的个性化文本到图像生成 四海 第1张快速将我放在中心位置:主题扩散是一种人工智能模型,可以实现开放领域的个性化文本到图像生成 四海 第2张

文本到图像模型已经成为AI领域讨论的基石,该领域的进展相当迅速,因此我们拥有了令人印象深刻的文本到图像模型。生成式人工智能进入了一个新阶段。

扩散模型是这一进展的关键贡献者。它们已经成为一个强大的生成模型类别。这些模型被设计为通过缓慢去噪输入来生成高质量的图像。扩散模型能够捕捉隐藏的数据模式并生成多样且逼真的样本。

基于扩散的生成模型的快速进展已经彻底改变了文本到图像生成方法。你可以要求一个图像,无论你能想到什么,描述出来,模型都能够相当准确地为你生成出来。随着它们的进一步发展,越来越难以理解哪些图像是由人工智能生成的。

然而,这里存在一个问题。这些模型完全依赖于文本描述来生成图像。你只能“描述”你想要看到的内容。此外,它们很难进行个性化,因为在大多数情况下需要进行微调。

想象一下,你正在为你的房子做室内设计,与一位建筑师合作。建筑师只能为你提供他为之前的客户设计的方案,当你试图个性化设计的某个部分时,他只会忽视它并为你提供另一个曾经使用过的风格。听起来不太令人愉快,不是吗?如果你在寻求个性化,这可能是你在使用文本到图像模型时会得到的体验。

幸运的是,已经有人试图克服这些限制。研究人员已经探索了将文本描述与参考图像整合起来以实现更个性化的图像生成。虽然一些方法需要在特定的参考图像上进行微调,但其他方法会在个性化数据集上重新训练基础模型,从而可能出现保真度和泛化性的潜在缺陷。此外,大多数现有算法只适用于特定领域,无法处理多概念生成、测试时微调和开放领域零样本能力。

因此,今天我们将介绍一种接近开放领域个性化的新方法——Subject-Diffusion

快速将我放在中心位置:主题扩散是一种人工智能模型,可以实现开放领域的个性化文本到图像生成 四海 第3张
SubjectDiffusion可以生成高保真度的主题驱动图像。来源:https://arxiv.org/pdf/2307.11410.pdf

Subject-Diffusion是一种创新的开放领域个性化文本到图像生成框架。它仅使用一个参考图像,消除了测试时微调的需求。为了构建一个大规模的个性化图像生成数据集,它利用了一个自动数据标记工具,生成了令人印象深刻的7600万图像和2.22亿个实体的Subject-Diffusion数据集。

Subject-Diffusion有三个主要组成部分:位置控制、细粒度参考图像控制和注意力控制。位置控制是在噪声注入过程中添加主要主题的遮罩图像。细粒度参考图像控制使用一个组合的文本-图像信息模块来改善两者的整合。为了实现多个主题的平滑生成,训练过程中引入了注意力控制。

快速将我放在中心位置:主题扩散是一种人工智能模型,可以实现开放领域的个性化文本到图像生成 四海 第4张
SubjectDiffusion概览。来源:https://arxiv.org/pdf/2307.11410.pdf

Subject-Diffusion实现了令人印象深刻的保真度和泛化性,能够根据每个主题的一个参考图像生成单个、多个和以人为主题的个性化图像,并进行形状、姿势、背景和风格的修改。该模型还通过特别设计的去噪过程,实现了自定义图像和文本描述之间的平滑插值。定量比较显示,Subject-Diffusion在各种基准数据集上超越或与其他最先进的方法相媲美,无论是否进行测试时微调。

Leave a Reply

Your email address will not be published. Required fields are marked *