认识DreamTeacher：一种利用生成网络为下游图像骨干预训练的自监督特征表示学习AI框架

认识DreamTeacher：一种利用生成网络为下游图像骨干预训练的自监督特征表示学习AI框架四海第1张

自监督表示学习是发展视觉基础技能的成功方法。这一研究方向的基础是利用大型未标记数据集作为补充的训练数据源，以提高下游网络性能并减少对大型标记目标数据集的需求。最近的研究表明，自监督在ImageNet上的预训练现在可以与或超过在多个下游数据集和任务上的有监督预训练，包括像素级语义和实例分割。

对比学习的变种是最受欢迎的自监督表示学习方法之一，其中目标骨干网络被训练为将图像的修改视图在潜在空间中映射得比从数据集中随机选择的图片更接近。这种范式可以通过添加空间损失并使用更少或没有负实例来改进。另一个研究领域专注于重建损失进行监督，或者称为遮蔽图模型（MIM），其中涉及对输入图像的某些区域进行遮蔽，并训练骨干网络重建这些部分。这项工作通常被认为是确定性的，这意味着它忽略了隐藏区域的多种可能性。

通常，这个研究领域探讨了架构设计、训练方法和遮蔽策略，以训练更好的骨干网络。当与基于Vision Transformer的骨干网络一起使用时，这些技术已经达到了最先进的性能；然而，最近还展示了稀疏CNN-based图像骨干的同样有效性。在这项研究中，作者提出了一种以生成模型作为表示学习器的方法，他们认为这个目标的简单性——生成数据——和直观的表征能力——生成高质量的样本——都表明学习到了语义上足够准确的内部表示。

使用生成网络作为表示学习器的想法并不陌生。在DatasetGAN及其派生工作中，建议使用StyleGAN或扩散模型的特征来补充与任务相关的头部，然后使用这些增强网络作为标记数据的源来训练后续网络。SemanticGAN则使用了带有额外任务解码器的StyleGAN作为任务网络本身，通过将图片编码成生成模型的潜在空间，并使用任务头部创建感知输出。在这项研究中，来自NVIDIA、多伦多大学、Vector研究所和麻省理工学院的研究人员引入了DreamTeacher，这是一个使用生成模型预训练基于蒸馏的下游感知模型的表示学习框架。

他们研究了两种不同的蒸馏过程：1）作为一种通用的无标签预训练过程，他们提供了特征蒸馏的技术，即将生成的特征降低到目标骨干。2）标签蒸馏：在半监督环境中，使用生成网络上的任务头将标记数据集中的知识蒸馏到目标骨干上。他们的工作选择了扩散模型和GAN作为生成模型。

他们集中研究了CNN作为目标骨干的原因有两个主要原因：1）已经证明基于CNN的骨干可以进行对比和MIM技术的最先进表示学习；2）最先进的生成模型（如GAN和扩散模型）仍然严重依赖CNN。他们还在早期试验中调查了Vision Transformer的骨干，但发现很难将基于CNN的生成模型的特征提取到Vision Transformer中。由于使用Vision Transformer架构创建的生成模型仍处于初级阶段，因此仍需要进一步研究使用这些设计的DreamTeacher。

他们通过实验证明，DreamTeacher在许多基准测试和条件下优于当前可用的自监督学习系统。当在没有任何标签的ImageNet上进行预训练时，他们的方法在包括ADE20K的语义分割、MSCOCO上的实例分割和自动驾驶数据集BDD100K上的任务上明显优于在ImageNet上进行完全监督的预训练方法。当仅在目标领域上进行训练时，他们的技术明显优于在带有标签监督的ImageNet上进行预训练的变种。它在数百万张无标签图片的以对象为重点的数据集上达到了新的最先进性能。这些发现证明了生成模型的潜力，特别是基于扩散的生成模型，作为能够高效利用各种无标签信息的表示学习器。