扩散模型在给定文本提示时已被证明在生成高质量照片方面非常成功。这种文本到图片(T2I)生成的范例已成功用于一些下游应用,包括深度驱动的图片生成以及主体/分割识别。两个受欢迎的基于文本条件的扩散模型,CLIP模型和潜在扩散模型(LDM),通常被称为稳定扩散,对这些进展至关重要。LDM在研究中以开源软件的形式免费提供,因此得到了广泛熟知。而对于未CLIP模型,却鲜有关注。这两种模型类型的基本目标都是根据文本提示训练扩散模型。
与未CLIP模型不同,LDM只有一个文本到图片扩散模型,而不需要文本到图片先验和扩散图片解码器。这两个模型家族都在图像的矢量量化潜空间内运作。因为未CLIP模型在多个组合基准测试中通常优于其他SOTA模型,如T2I-CompBench和HRS-Benchmark,所以研究团队在本文中将重点放在它们身上。这些T2I模型通常有很多参数,需要优秀的图像-文本对进行训练。与LDM相比,如DALL-E-2、卡洛和康定斯基等未CLIP模型由于它们的早期模块,其总模型大小要大得多(≥ 2B),约有10亿参数。
按照顺序,这些未CLIP模型的训练数据分别为250M、115M和177M个图像-文本对。因此,仍然存在两个重要问题:1)使用文本到图片先验能否提高文本组合的SOTA性能?2)或者模型大小的增加才是关键因素?通过增加参数和数据效率,研究团队旨在改善他们对T2I先验的认识,并在目前的公式上作出重大改进。先验的T2I目标是在扩散过程的每个时间步骤中直接估计无噪声图像嵌入,正如先前的研究所建议的那样,它们也是扩散模型。为了研究这个先前的传播过程,研究团队进行了实证调查。
研究团队发现了扩散过程对性能的轻微负面影响,并且对产生正确图片没有影响。此外,由于扩散模型收敛速度较慢,训练它们需要显著的GPU小时或天数。因此,在本研究中,非扩散模型作为替代方法。由于缺乏无分类器引导,这种方法可能会限制组合性的可能性,但却大大提高了参数效率并减少了对数据的依赖。
在这项研究中,亚利桑那州立大学的研究团队提出了一种独特的对比学习技术,称为ECLIPSE,来增强T2I非扩散先验并克服上述缺点。研究团队优化了传统方法,即通过优化证据下界(ELBO)产生图像嵌入来从所提供的文本嵌入生成图片。研究团队建议使用预训练的视觉语言模型的语义对齐(文本和图片之间)特征来监督早期训练。研究团队使用相对较少的图像-文本对(0.34% – 8.69%)使用ECLIPSE训练紧凑的(97%更小)的非扩散先验模型(具有3300万个参数)。研究团队为未CLIP扩散图片解码器的变体(卡洛和康定斯基)引入了ECLIPSE训练的先验。ECLIPSE训练的先验模型优于拥有10亿参数的对应版本,并且优于基准先验学习算法。他们的研究结果表明了一条可能的T2I生成模型的路径,这种模型在不需要很多参数或数据的情况下提高了组合性。
如图1所示,它们的总参数和数据需求显著降低,并通过增加T2I在unCLIP家族之前取得了与相似参数模型相媲美的性能。贡献:1)在unCLIP框架下,研究团队提供了ECLIPSE,这是首个利用对比学习进行文本到图像先验的尝试。2)通过全面的实验,研究团队证明了ECLIPSE在资源受限环境中优于基线先验的优越性。3)值得注意的是,ECLIPSE先验仅需使用训练数据的2.8%和模型参数的3.3%即可获得与更大模型相当的性能。4)研究团队还研究了当前T2I扩散先验的缺点,并提供了实证观察结果。