见识CommonCanvas：一个使用创意共享图片训练而成的开放扩散模型

近年来，人工智能在文本到图像生成方面取得了显著进展。将书面描述转化为视觉表达具有许多应用，从创作内容到帮助盲人和讲故事。研究人员面临两个重要障碍，即缺乏高质量数据和与从互联网上提取的数据集相关的版权问题。

在最近的研究中，一个研究团队提出了建立一个遵循创意共享许可（CC）的图像数据集，并使用该数据集来训练能够胜过稳定扩散2（SD2）的开放式扩散模型的想法。为了做到这一点，需要克服以下两个主要障碍。

缺乏标题：虽然高分辨率的CC照片是开放许可的，但它们经常缺乏文本描述，即文本到图像生成模型训练所必需的标题。在缺少标题的情况下，模型很难理解和生成基于文本输入的视觉内容。

CC照片的稀缺性：与像LAION这样的较大专有数据集相比，CC照片虽然是重要资源，但却更为稀缺。这种稀缺性提出了一个问题，即是否有足够的数据可以成功训练高质量的模型。

该团队使用了迁移学习技术，并使用预训练模型创建了出色的合成标题，并将它们与精心选择的CC照片进行匹配。这种方法简单且利用了模型从照片或其他输入生成文本的能力。他们通过编制一个照片和虚构标题的数据集来实现这一目标，该数据集可以用来训练将文字转化为视觉内容的生成模型。

为了应对第二个挑战，该团队创建了一个既节约计算资源又节约数据的训练方案。与SD2模型训练所需的最初利用了大约7000万个示例相比，只需要约3%的数据即可达到相同的质量。这表明存在足够的CC照片可用于高质量模型的有效训练。

该团队使用数据和有效的训练程序训练了几个文本到图像模型。这些模型共同被称为CommonCanvas家族，它们标志着生成模型领域的重大进展。它们可以生成与SD2在质量上相媲美的视觉输出。

CommonCanvas家族中最大的模型是在比LAION数据集小不到3%的CC数据集上训练的，其性能在人类评估中可与SD2相媲美。尽管受到数据集大小限制和使用人工生成的标题的影响，但该方法在生成高质量结果方面是有效的。

该团队总结了他们的主要贡献：