阿里巴巴AI研究提出Composer：一个基于数十亿（文本，图像）对训练的巨型（50亿参数）可控扩散模型

阿里巴巴AI研究提出Composer：一个基于数十亿（文本，图像）对训练的巨型（50亿参数）可控扩散模型四海第1张

现如今，基于文本的生成图片模型已经能够创建各种逼真的图片。最近的许多研究努力将文本到图片的模型进一步扩展，通过添加分割图、场景图、绘画、深度图和修复遮罩等条件或在少量特定主题数据上进行微调来实现定制化生成。然而，当将这些模型应用于实际应用时，设计师仍然需要更多的控制。例如，在真实世界的设计项目中，生成模型通常需要帮助可靠地生成同时对语义、形式、风格和颜色有要求的图片。

阿里巴巴中国的研究人员介绍了Composer。它是一个训练有数十亿个（文本，图片）对的大型（50亿参数）可控扩散模型。他们认为组合性而不仅仅是条件性是控制图像生成的秘密。后者引入了很多可能的组合，可以极大地扩大控制空间。类似的思想在语言和场景理解领域也有研究。在这些领域中，组合性被称为组合泛化，即能够从有限数量的可用组件中识别或创建出有限数量的独特组合的能力。基于上述概念，他们在这项工作中提供了一个组合生成模型的实现，称之为Composer。他们将可以平滑重新组合视觉元素以创建新图片的生成模型称为组合生成模型。他们使用一个具有UNet骨干的多条件扩散模型来实现Composer。每个Composer训练迭代有两个阶段：分解阶段，在这个阶段，计算机视觉算法或预训练模型被用来将一批图片分解成单个表示；合成阶段，在这个阶段，Composer被优化以从表示子集中重建图片。

阿里巴巴AI研究提出Composer：一个基于数十亿（文本，图像）对训练的巨型（50亿参数）可控扩散模型四海第3张 — **图1：**组合图像合成的思想，首先将一张图片分解成多个基本部分，然后以很高的创造力和控制度重新组合它们。为了做到这一点，这些组件以各种形式存在，并在整个生成过程中充当条件，使得在推理步骤中可以进行广泛的修改。建议以高分辨率查看。

Composer可以解码出从未见过的表示组合中的独特图片，这些表示可能来自多个来源，可能不兼容，而仅仅是通过重建目的进行训练。尽管概念上很简单且易于使用，但Composer在传统和以前未开发的图片生成和操作任务上表现出色，如但不限于文本到图片生成、多模态条件图片生成、风格转换、姿势转换、图片翻译、虚拟试穿、插值和来自各个方向的图片变化、通过修改草图进行图片重构、依赖图片翻译和图片翻译。

此外，Composer可以将所有上述操作的可编辑区域限制在用户指定的区域内，这比传统的修复操作更灵活，同时通过引入掩膜的正交表示防止在该区域之外修改像素。尽管经过多任务训练，Composer在COCO数据集上利用标题作为标准，在文本到图片合成中获得了零射击FID为9.2的结果，展示了其出色的性能。他们的分解-合成范式表明，当条件是可组合的而不仅仅是单独使用时，生成模型的控制空间可以大大增加。因此，他们的Composer架构可以重塑广泛的传统生成任务，并揭示了迄今未被认识的生成能力，为进一步研究各种分解技术提供了启示。此外，基于无分类器和双向引导，他们展示了许多使用Composer进行不同图片生成和修改任务的方法，并为后续研究提供了有益的参考。在将这项工作公开之前，他们计划仔细检查Composer如何降低滥用风险，并可能提供一个经过筛选的版本。