Press "Enter" to skip to content

清华大学的研究人员在元学习范式下引入了一种新颖的机器学习算法

清华大学的研究人员在元学习范式下引入了一种新颖的机器学习算法 四海 第1张清华大学的研究人员在元学习范式下引入了一种新颖的机器学习算法 四海 第2张

深度学习在监督任务中的最新成就可以归因于大量标记训练数据的可用性。然而,收集准确的标签需要大量的工作和金钱。在许多实际情况下,只有一小部分训练数据附带标签。半监督学习(SSL)旨在使用带标签和不带标签的输入来提高模型性能。许多有效的SSL方法,当应用于深度学习时,采用无监督一致性正则化来使用未标记的数据。

最先进的基于一致性的算法通常引入几个可配置的超参数,尽管它们实现了出色的性能。为了实现最佳算法性能,通常会调整这些超参数的值。不幸的是,在许多现实世界的SSL场景中,如医学图像处理,高光谱图像分类,网络流量识别和文档识别中,超参数搜索经常不可靠。这是因为标注数据稀缺,采用交叉验证时会产生高方差。算法性能对超参数值的敏感性使这个问题变得更加紧迫。此外,随着超参数数量的指数级增长,先进的深度学习算法的计算成本可能变得难以管理。

清华大学的研究人员引入了一种基于元学习的SSL算法Meta-Semi,以更好地利用带标签的数据。通过调整一个以上的超参数,Meta-Semi在许多场景中实现了出色的性能。

团队受到这样的认识启发,即通过适当的“伪标记”未标记示例可以成功训练网络。具体而言,在在线训练阶段,他们基于网络预测为未标记的数据产生伪软标签。接下来,他们删除具有不可靠或错误伪标签的样本,并使用剩余数据来训练模型。这项工作表明,正确“伪标记”数据的分布应与带标签数据的分布相当。如果使用前者训练网络,则应最小化后者的最终损失。

他们定义了元重新加权目标,通过选择最合适的权重(本文中的权重始终指用于重新加权每个未标记样本的系数,而不是神经网络的参数)来最小化带标签数据上的最终损失。研究人员在处理该问题时遇到了计算困难。

因此,他们提出了一个近似公式,可以导出一个闭合解。从理论上讲,他们证明了每个训练迭代只需要进行一次元梯度步骤即可实现近似解。

总之,他们建议使用动态加权方法对先前伪标记的样本进行加权,加权范围为0-1。结果表明,该方法最终达到了监督损失函数的稳定点。在流行的图像分类基准测试(CIFAR-10、CIFAR-100、SVHN和STL-10)中,所提出的技术显示出比最先进的深度网络更好的性能。对于困难的CIFAR-100和STL-10 SSL任务,Meta-Semi的性能要比ICT和MixMatch等最先进的SSL算法高得多,并在CIFAR-10上略优于它们。此外,Meta-Semi是一种有用的一致性方法的补充;将一致性正则化与算法相结合可以进一步提高性能。

根据研究人员介绍,Meta-Semi需要更多的训练时间是一个缺点。他们计划将来研究这个问题。

查看论文参考文章。本研究的所有荣誉归功于该项目的研究人员。此外,请加入我们的26k+ ML SubReddit、Discord频道和电子邮件通讯,我们将分享最新的AI研究新闻、酷炫的AI项目等。

通过Tensorleap的解释性平台揭示深度学习的秘密

本文由MarkTechPost发布,清华大学的研究人员介绍了一种基于元学习范式的新型机器学习算法。

Leave a Reply

Your email address will not be published. Required fields are marked *