认识 Paella：一种新的 AI 模型，类似于扩散，可以比使用稳定扩散更快地生成高质量图像

认识 Paella：一种新的 AI 模型，类似于扩散，可以比使用稳定扩散更快地生成高质量图像计算科学第1张

过去2-3年，使用人工智能（AI）从文本生成图像的研究质量和数量出现了惊人的增长。在这个领域里最具突破性和革命性的工作之一是指最先进的生成模型——扩散模型。这些模型通过利用深度学习算法的能力，完全改变了如何使用文本描述生成高质量图像的方法。此外，除了扩散模型，还存在一系列功能强大的其他技术，提供了一条生成接近照片般逼真的视觉内容的令人兴奋的路径。然而，这些最先进技术取得的杰出成果也有一定的局限性。许多新兴的生成AI技术依赖于扩散模型，这需要复杂的架构和大量的计算资源进行训练和图像生成。这些先进的方法还降低了推理速度，使它们在实时实现方面不切实际。此外，这些技术的复杂性直接与它们所实现的进步相关，这对公众掌握这些模型的内部工作方式构成了挑战，从而导致它们被视为黑匣子模型。

为了解决前面提到的问题，德国Technische Hochschule Ingolstadt和Wand Technologies的研究人员提出了一种新颖的文本条件图像生成技术。这种创新技术与扩散类似，但生成高质量图像的速度更快。这个基于卷积的模型的图像采样阶段可以仅使用12个步骤完成，同时仍能产生出色的图像质量。这种方法因其显著的简单性和降低的图像生成速度而脱颖而出，从而允许用户对模型进行条件设置，并享受现有最先进技术中缺乏的优势。所提出的技术的固有简单性已经显著提高了其可访问性，使来自不同背景的个人能够轻松掌握和实施这种文本到图像技术。为了通过实验评估验证他们的方法，研究人员还训练了一个名为“Paella”的文本条件模型，该模型具有惊人的10亿个参数。该团队还在MIT许可证下开源了其代码和模型权重，以鼓励围绕他们的工作进行研究。

扩散模型经历了一个学习过程，逐步从每个训练实例中消除不同程度的噪声。在推理过程中，当呈现出纯噪声时，模型通过逐步减少几百个步骤的噪声来生成图像。德国研究人员设计的技术在很大程度上借鉴了这些扩散模型的原理。像扩散模型一样，Paella从代表图像的标记中去除不同程度的噪声，并利用它们生成新图像。该模型在LAION-5B美学数据集的900 million个图像-文本对上进行了训练。Paella使用基于卷积神经网络的预训练编码器-解码器体系结构，能够使用来自预训练期间学习的8192个标记集的256个标记来表示256 x 256的图像。为了在训练阶段为其示例添加噪声，研究人员还在此列表中包括了一些随机选择的标记。

为了基于图像的文本描述生成文本嵌入，研究人员利用了CLIP（对比语言-图像预训练）模型，该模型建立了图像和文本描述之间的联系。然后，采用U-Net CNN体系结构来训练模型生成完整的原始标记，利用先前迭代中生成的文本嵌入和标记。这个迭代过程重复了12次，每次逐渐替换以前生成的标记的一小部分。在剩余生成的标记的指导下，U-Net逐步减少每个步骤的噪声。在推理过程中，CLIP基于给定的文本提示产生一个嵌入，U-Net为随机选择的256个标记的完整集合重构了所有标记12次。最后，解码器利用生成的标记生成图像。

为了评估他们的方法的有效性，研究人员采用了Fréchet inception距离（FID）指标来比较Paella模型和稳定扩散模型得到的结果。虽然结果略微偏向稳定扩散，但Paella在速度方面具有显著优势。这项研究突出了先前的努力，因为它专注于完全重新配置架构，这在以前并未考虑过。总之，与现有的模型相比，Paella可以使用更小的模型大小和更少的采样步骤生成高质量的图像，仍然可以实现可观的结果。研究团队强调了他们方法的易用性，该方法提供了一个简单的设置，可以被从不同背景中的个人轻松采用，包括非技术领域，因为随着时间的推移，生成AI领域越来越受到关注。