解决人工智能的泛化差距：来自伦敦大学学院的研究人员提出Spawrious——一个包含类别和背景之间虚假相关性的图像分类基准套件

解决人工智能的泛化差距：来自伦敦大学学院的研究人员提出Spawrious——一个包含类别和背景之间虚假相关性的图像分类基准套件计算科学第1张

随着人工智能的日益普及，几乎每天都会发布带有全新功能和解决能力的新模型。最近，研究人员一直在努力提出方法来加强人工智能模型对未知测试分布的抵抗力，并减少对虚假特征的依赖。考虑到自动驾驶汽车和自主厨房机器人的例子，它们尚未被广泛部署，因为它们在分布外（OOD）环境中的行为所带来的挑战，这些环境与模型接触到的训练数据有很大的差异。

许多研究已经探讨了虚假相关性（SCs）的问题，并提出了减少其对模型性能的负面影响的方法。已经证明，在像ImageNet这样的知名数据集上训练的分类器依赖于背景数据，这些数据与类标签存在虚假关联，但不一定具有预测性。尽管在开发解决SC问题的方法方面已经取得了进展，但仍需要解决现有基准的局限性。目前的基准测试，如Waterbirds和CelebA发色基准测试，存在局限性，其中之一是它们专注于简单的一对一（O2O）虚假相关性，而实际上，许多对多（M2M）虚假相关性更常见，涉及类和背景的群组。

最近，来自伦敦大学学院的研究人员介绍了一个名为Spawrious数据集的图像分类基准套件，其中包含类和背景之间的虚假相关性。它包括一对一（O2O）和一对多（M2M）虚假相关性，这些已经被分类为三个难度级别：简单，中等和困难。该数据集包含约152,000张高质量的照片逼真图像，使用文本到图像模型生成，采用图像字幕模型过滤不适合的图像，确保数据集的质量和相关性。

评估Spawrious数据集后，表现出了不可思议的性能，因为该数据集对当前的最先进（SOTA）组鲁棒性方法提出了挑战，例如Hard-splits，其中没有一种测试方法使用在ImageNet上预训练的ResNet50模型实现了70％以上的准确性。该团队提到，模型的性能问题是由于它们依赖虚假背景而导致的，通过查看其错误分类的分类，说明了Spawrious数据集如何成功地测试分类器并揭示它们在错误相关性方面的弱点。

为了说明O2O和M2M基准测试之间的差异，该团队使用了一个夏季收集训练数据的例子，其中包括来自两个不同位置的两组动物物种，每个动物组都与特定的背景组相关联。然而，随着季节的变化和动物的迁移，群组交换位置，导致动物组和背景之间的虚假相关性以无法一对一匹配的方式发生变化。这凸显了捕捉M2M虚假相关性中复杂关系和相互依赖性的必要性。

Spawrious似乎是一套有前途的基准套件，用于OOD，领域通用算法，以及评估和提高模型在存在虚假特征的情况下的鲁棒性。