全新的逼真图像合成时代已经开始,得益于文本到图像(T2I)生成模型的发展,例如DALLE 2、Imagen和Stable Diffusion。这极大地影响了许多下游应用,包括图片编辑、视频制作、3D素材的创建等。然而,这些复杂的模型需要大量的处理能力进行训练。例如,训练SDv1.5需要6K A100 GPU天,约花费320,000美元。更大型的模型RAPHAEL甚至需要60K A100 GPU天,约花费3,080,000美元。此外,训练过程还会导致大量的二氧化碳排放,给环境造成压力;例如,RAPHAEL的训练产生了35吨二氧化碳排放,相当于一个人在7年内的排放量,如图1所示。
图1:显示了在T2I生成者之间的二氧化碳排放和训练成本方面的比较。在PIXART-α的训练上花费了显著的26,000美元。我们的二氧化碳排放和训练开销仅比RAPHAEL少1.1%和0.85%。
这样高昂的价格给研究界和企业获得这些模型带来了重大限制,严重阻碍了人工智能图像生成社区的关键进展。这就提出了一个关键问题:他们能否以可管理的资源使用创建高质量的图片生成器?华为诺亚方舟实验室、大连理工大学、香港大学和香港科技大学的研究人员提出了PIXART-α,它大大降低了训练的计算要求,同时保持了竞争力的图片生成质量,达到了最新的先进图像生成器的水平。他们提出了三个主要设计来实现这一点:训练计划的分解。他们将复杂的文本到图像生成问题分解为三个简单的子任务:
- 学习自然图片中像素的分布
- 学习文本与图像的对齐关系
- 改善图像的审美吸引力
他们建议通过用低成本的类别条件模型对T2I模型进行初始化,从而大大降低了第一个子任务的学习成本。他们提供了一个训练范式,包括在信息密度较高的文本-图像对数据上进行预训练和在具有更高审美质量的数据上进行微调,提高训练效果。一种高效的T2I Transformer。他们使用交叉注意力模块将文本条件注入,并简化了计算量大的类别条件分支,以提高效率,基于扩散变压器(DiT)。此外,他们提出了一种重新参数化方法,使得修改后的文本到图像模型可以直接导入原始类别条件模型的参数。
他们可以利用ImageNet关于自然图片分布的先前知识,为T2I Transformer提供可接受的初始化,并加速其训练过程。高质量的信息。他们的研究揭示了现有文本-图像对数据集的显著缺陷,以LAION为例。文字说明常常受到严重的长尾效应的影响(即许多名词只出现极低的频率)以及缺乏有信息量的内容(即通常只描述图像中的一部分物体)。这些缺陷大大降低了T2I模型训练的有效性,需要数百万次迭代才能获得可靠的文本-图像对齐。他们建议使用最先进的视觉语言模型在SAM上进行自动标注的流程,以解决这些问题。
SAM数据集拥有大量多样的对象,使其成为生成信息密度较高、更适合文本-图像对齐学习的文本-图像配对的理想来源。他们巧妙的特征使得他们的模型训练变得极其高效,仅需675 A100 GPU天和26,000美元。图1显示了他们的方法使用的训练数据量(0.2%对比Imagen)和训练时间(2%对比RAPHAEL)比Imagen更少。他们的训练开销约为RAPHAEL的1%,节省了约3,000,000美元(26,000美元对比3,080,000美元)。
关于生成质量,他们的用户研究试验表明 PIXART-α 在画质上比当前的 SOTA T2I 模型、稳定扩散等方面具有更好的语义对齐效果;而且,它在 T2I-CompBench 上的性能展示了其在语义控制方面的优势。他们预计,他们有效训练 T2I 模型的努力将为 AIGC 社区提供有价值的见解,并有助于更多独立的学术机构或公司以更实惠的价格生产出高质量的 T2I 模型。