Press "Enter" to skip to content

见识CommonCanvas:一个使用创意共享图片训练而成的开放扩散模型

近年来,人工智能在文本到图像生成方面取得了显著进展。将书面描述转化为视觉表达具有许多应用,从创作内容到帮助盲人和讲故事。研究人员面临两个重要障碍,即缺乏高质量数据和与从互联网上提取的数据集相关的版权问题。

在最近的研究中,一个研究团队提出了建立一个遵循创意共享许可(CC)的图像数据集,并使用该数据集来训练能够胜过稳定扩散2(SD2)的开放式扩散模型的想法。为了做到这一点,需要克服以下两个主要障碍。

  1. 缺乏标题:虽然高分辨率的CC照片是开放许可的,但它们经常缺乏文本描述,即文本到图像生成模型训练所必需的标题。在缺少标题的情况下,模型很难理解和生成基于文本输入的视觉内容。
  1. CC照片的稀缺性:与像LAION这样的较大专有数据集相比,CC照片虽然是重要资源,但却更为稀缺。这种稀缺性提出了一个问题,即是否有足够的数据可以成功训练高质量的模型。

该团队使用了迁移学习技术,并使用预训练模型创建了出色的合成标题,并将它们与精心选择的CC照片进行匹配。这种方法简单且利用了模型从照片或其他输入生成文本的能力。他们通过编制一个照片和虚构标题的数据集来实现这一目标,该数据集可以用来训练将文字转化为视觉内容的生成模型。

为了应对第二个挑战,该团队创建了一个既节约计算资源又节约数据的训练方案。与SD2模型训练所需的最初利用了大约7000万个示例相比,只需要约3%的数据即可达到相同的质量。这表明存在足够的CC照片可用于高质量模型的有效训练。

该团队使用数据和有效的训练程序训练了几个文本到图像模型。这些模型共同被称为CommonCanvas家族,它们标志着生成模型领域的重大进展。它们可以生成与SD2在质量上相媲美的视觉输出。

CommonCanvas家族中最大的模型是在比LAION数据集小不到3%的CC数据集上训练的,其性能在人类评估中可与SD2相媲美。尽管受到数据集大小限制和使用人工生成的标题的影响,但该方法在生成高质量结果方面是有效的。

该团队总结了他们的主要贡献:

  1. 团队使用一种名为”电报”的迁移学习方法为初始时没有标题的创作共享(CC)照片生成了出色的标题。
  1. 他们提供了一个名为CommonCatalog的数据集,其中包括约7000万张在开放许可下发布的CC照片。
  1. CommonCatalog数据集被用来训练一系列潜在扩散模型(LDM)。这些模型共同被称为CommonCanvas,在定性和定量上与SD2基线相比具有竞争力。
  1. 该研究应用了许多训练优化技术,使得SD2基线模型的训练速度快了近三倍。
  1. 为了促进合作和更多的研究,该团队在GitHub上免费提供了训练好的CommonCanvas模型、CC照片、人工生成的标题和CommonCatalog数据集。
Leave a Reply

Your email address will not be published. Required fields are marked *