Press "Enter" to skip to content

来自麻省理工学院和FAIR Meta的研究人员发布了RCG(Representation-Conditioned Image Generation):一种在无条件图像生成中开创性的人工智能框架

如何在不依赖人工标注的情况下生成高质量图像? MIT CSAIL和FAIR Meta的这篇论文解决了不依赖人工标注生成高质量图像的挑战。他们提出了一个名为Representation-Conditioned Image Generation(RCG)的新型框架,该框架利用从图像分布经过预训练编码器获得的自监督表示分布。这个框架在无条件生成图像方面取得了优秀的结果,并且在有条件生成图像方面与领先方法一直保持竞争力。

历史上,监督学习主导了计算机视觉,但是像对比学习这样的自监督学习方法缩小了差距。尽管先前的图像生成工作在使用人工标注进行有条件生成方面表现出色,但无条件生成面临挑战。引入的框架RCG通过在没有人工标注的情况下在类有条件和类无条件图像生成方面取得了卓越的成果。 RCG取得了最先进的结果,标志着自监督图像生成的重大进展。

使用自监督教育的Representation Diffusion Model(RDM)可以帮助弥合图像生成中监督学习和无监督学习之间的差距。RCG将RDM与像素生成器集成,从而实现了潜在优势的类无条件图像生成。

RCG框架将图像生成条件化为通过预训练编码器从图像分布获得的自监督表示分布。利用像素生成器对像素进行条件化,RCG通过通过去噪扩散隐式模型进行的表示空间采样来集成RDM的训练。 RCG集成了无需分类器的指导,以改善生成模型的性能,如MAGE所示。像Moco v3这样的预训练图像编码器将表达式规范化为输入到RDM中。

RCG框架在类无条件图像生成方面表现出色,实现了最先进的结果,并在类有条件图像生成方面与领先方法相媲美。在ImageNet 256×256数据集上,RCG达到了3.31的Frechet Inception Distance和253.4的Inception Score,表明生成了高质量的图像。通过对表示进行条件化,RCG显著改善了像ADM,LDM和MAGE等不同像素生成器的类无条件生成,并进一步改善了性能的训练周期。 RCG的自我条件化图像生成方法在各种现代生成模型中具有通用性,始终改善类无条件生成。

RCG框架借助自监督表示分布在类无条件图像生成方面取得了突破性成果。其与多样的生成模型的无缝集成显著改善了它们的类无条件性能,而其不依赖于人工标注的自我条件化方法有望超越有条件方法。RCG的轻量级设计和任务特定的训练适应性使其能够利用大型无标签数据集。 RCG已经被证明是一种非常有效和有前途的高质量图像合成方法。

Leave a Reply

Your email address will not be published. Required fields are marked *