多年来,文本到图像生成领域得到了广泛的探索,并取得了重要进展。研究人员通过在大规模数据集上训练大规模模型,实现了零样本文本到图像生成,能够处理任意文本输入。DALL-E和CogView等开创性作品为研究人员提出了许多方法,使得生成与文本描述对齐的高分辨率图像成为可能,展现了卓越的保真度。这些大规模模型不仅革新了文本到图像生成,还对包括图像处理和视频生成在内的其他各种应用产生了深远影响。
尽管上述大规模文本到图像生成模型在生成与文本对齐的创造性输出方面表现出色,但在生成用户指定的新颖和独特概念时往往面临挑战。因此,研究人员探索了各种方法来定制预训练的文本到图像生成模型。
例如,一些方法涉及使用有限数量的样本对预训练生成模型进行微调。为了防止过拟合,采用不同的正则化技术。其他方法旨在将用户提供的新概念编码为单词嵌入。这种嵌入可以通过优化过程或来自编码器网络获得。这些方法使得能够根据用户输入文本定制生成新概念,同时满足额外的要求。
尽管文本到图像生成取得了重大进展,但最近的研究引发了对正则化方法在定制化方面潜在局限性的担忧。有人怀疑这些正则化技术可能会无意中限制定制化生成的能力,导致细节的丢失。
为了克服这一挑战,提出了一种新颖的框架ProFusion。其架构如下所示。
ProFusion包括一个称为PromptNet的预训练编码器,它从输入图像和随机噪声中推断出条件词嵌入,以及一种称为Fusion Sampling的新型采样方法。与先前的方法相比,ProFusion在训练过程中消除了对正则化的要求。相反,该问题在推理过程中通过Fusion Sampling方法有效地解决。
实际上,作者认为,尽管正则化可以实现受文本条件限制的内容创作,但它也会导致细节信息的丢失,从而导致性能下降。
Fusion Sampling在每个时间步骤包括两个阶段。第一步是融合阶段,它将输入图像嵌入和条件文本的信息编码为带有噪声的部分输出。之后,进行改进阶段,根据选择的超参数更新预测。更新预测有助于Fusion Sampling保留输入图像的细节信息,并将输出条件化为输入提示。
这种方法不仅节省了培训时间,还消除了与正则化方法相关的超参数调整的需要。
下面报告的结果不言自明。
我们可以看到ProFusion与最先进的方法进行了比较。提出的方法在保留与面部特征相关的细节方面表现优异。
这就是ProFusion的摘要,一种具有最先进质量的无正则化框架,用于文本到图像生成。如果您感兴趣,可以在下面的链接中了解更多关于这种技术的信息。