Press "Enter" to skip to content

在无源领域适应中突破障碍:NOTELA对生物声学和视觉领域的影响

在无源领域适应中突破障碍:NOTELA对生物声学和视觉领域的影响 四海 第1张在无源领域适应中突破障碍:NOTELA对生物声学和视觉领域的影响 四海 第2张

深度学习在各种应用领域取得了重要的进展。一个重要的贡献因素是越来越大型的数据集和模型的可用性。然而,这一趋势的一个缺点是,训练最先进的模型也变得越来越昂贵,这引起了环境问题,并对一些从业者的可访问性造成了困扰。此外,在部署过程中,直接重用预训练模型可能会导致性能下降,因为面对分布转移。研究人员已经探索了无源域自适应(SFDA)来解决这些挑战。这种技术在没有访问原始训练数据的情况下,将预训练模型适应到新的目标域。本文重点介绍了SFDA问题,并介绍了一种名为NOTELA的新方法,旨在解决音频领域(特别是生物声学)中的分布转移问题。

广泛用于鸟类物种分类的生物声学数据集(XC)包括:

  • 聚焦录音。
  • 在自然条件下针对个体鸟类。
  • 通过全向麦克风获取的声景录音。

它存在独特的挑战,声景录音具有较低的信噪比,同时多只鸟类同时发声,以及环境噪音等显著的干扰因素。此外,声景录音是从不同地理位置收集的,导致标签出现极端转移,因为XC中的物种只有一小部分可能出现在特定区域。此外,源域和目标域都存在类别不平衡问题,并且由于每个录音中存在多个鸟类物种,该问题是一个多标签分类任务。

在这项研究中,Google研究人员首先评估了生物声学数据集上的几种现有SFDA方法,包括熵最小化、伪标注、降噪师生和流形正则化。评估结果显示,虽然这些方法在传统视觉任务中取得了成功,但在生物声学中的表现差异显著。在某些情况下,它们的性能甚至不如没有自适应。这个结果凸显了需要专门的方法来处理生物声学领域的独特挑战。

为了解决这个局限性,研究人员提出了一种名为NOisy student TEacher with Laplacian Adjustment(NOTELA)的新颖方法。这种新方法结合了降噪师生(DTS)方法和流形正则化(MR)技术的原则。NOTELA引入了一种向学生模型添加噪声的机制(受DTS启发),同时在特征空间中强制实施簇假设(类似于MR)。这种组合有助于稳定适应过程,并增强模型在不同领域的泛化能力。该方法将模型的特征空间作为额外的真实信息源,使其能够在具有挑战性的生物声学数据集中取得成功,并实现最先进的性能。

在生物声学领域,NOTELA在源模型之上展现出了显著的改进,并在多个测试目标域中优于其他SFDA方法。它在多标签分类的标准指标——平均精度(mAP)和类别平均精度(cmAP)方面表现出色。它在不同目标域上的显著表现,如S. Nevada(mAP 66.0,cmAP 40.0)、Powdermill(mAP 62.0,cmAP 34.7)和SSW(mAP 67.1,cmAP 42.7),突显了其在处理生物声学数据集的挑战方面的有效性。

在无源领域适应中突破障碍:NOTELA对生物声学和视觉领域的影响 四海 第3张

在视觉任务的背景下,NOTELA始终展现出强大的性能,优于其他SFDA基线。它在各种视觉数据集上都取得了显著的Top-1准确率结果,包括CIFAR-10(90.5%)和S. Nevada(73.5%)。尽管在ImageNet-Sketch(29.1%)和VisDA-C(43.9%)上的表现略低,但NOTELA在处理生物声学和视觉领域的SFDA问题方面的整体有效性和稳定性是显而易见的。

在无源领域适应中突破障碍:NOTELA对生物声学和视觉领域的影响 四海 第4张
https://arxiv.org/abs/2302.06658

上图显示了六个声景数据集上多标签分类测试平均精度(mAP)的演变。它将NOTELA和Dropout Student(DS)与SHOT、AdaBN、Tent、NRC、DUST和Pseudo-Labelling进行了比较,表明NOTELA是唯一一个不断改进源模型的方法,使其与众不同。

总体而言,这项研究强调了在评估和设计SFDA方法时考虑不同的模态和问题设置的重要性。作者提出了生物声学任务作为研究SFDA的有价值途径。它强调了在没有领域特定验证数据的情况下,需要一致和可推广的性能。他们的发现表明,NOTELA成为SFDA的一个引人注目的基准,展示了其在不同领域中提供可靠性能的能力。这些宝贵的见解为推进SFDA技术和实现更有效、更多样化的深度学习应用打开了新的大门。

Leave a Reply

Your email address will not be published. Required fields are marked *