在内里还是在外面？修复ImageNet外部分布检测评估（论文摘要）

在内里还是在外面？修复ImageNet外部分布检测评估（论文摘要）机器学习第1张

深度学习模型，特别是图像分类中的区分外部分布（OOD）的检测，解决了识别与模型的训练任务无关的输入的挑战。它旨在防止模型在（OOD）输入上做出自信但不正确的预测，同时准确地对内部分布（ID）输入进行分类。通过区分ID和OOD输入，OOD检测方法增强了模型在实际应用中的鲁棒性和可靠性。

当前图像分类中对OOD检测评估的一个弱点，特别是有关与ImageNet-1K（IN-1K）相关的数据集，是OOD数据集中存在ID对象。这个问题会导致最先进的OOD检测器将ID对象错误地分类为OOD。因此，OOD检测方法的评估受到影响，导致低估实际的OOD检测性能，并不公正地惩罚更有效的OOD检测器。

最近发表了一篇新论文，作者的目标是解决评估OOD检测方法的限制。他们引入了一个新的测试数据集NINCO，其中包含没有任何来自ImageNet-1K（ID）类的对象的OOD样本。他们还提供了合成的“OOD单元测试”，以评估OOD检测器的弱点。该论文在NINCO上评估了各种体系结构和方法，为模型弱点和预训练对OOD检测性能的影响提供了洞见。其目标是提高OOD检测方法的评估和理解。

作者提出创建一个名为NINCO（无ImageNet类对象）的新数据集，以解决评估OOD检测方法的限制。他们从现有或新采集的数据集中精心选择基础类别，考虑它们的非许可解释，以确保它们不是ImageNet-1K（ID）类别的一部分。作者视觉检查基础类别中的每个图像，以删除包含ID对象或OOD类别中没有对象可见的样本。这个手动清理过程确保了更高质量的数据集。

NINCO由64个OOD类别组成，共有5,879个样本，这些样本来自各种数据集，包括SPECIES，PLACES，FOOD-101，CALTECH-101，MYNURSINGHOME，ImageNet-21k以及从iNaturalist.org和其他网站新采集的数据。此外，作者还提供了11个测试OOD数据集中2715个OOD图像的清理版本，以评估潜在的ID污染。

作者还提出使用OOD单元测试，这是一些简单的、合成的图像输入，旨在评估OOD检测的弱点。他们建议将OOD检测器在这些单元测试上的性能分开评估，并计算失败测试的数量（FPR高于用户定义的阈值），并将其与在类似NINCO的测试OOD数据集上的整体评估一起使用。这些单元测试提供了有关检测器在实践中可能遇到的特定弱点的有价值的见解。总体而言，作者提出NINCO作为评估OOD检测方法的高质量数据集，并建议使用OOD单元测试来获得有关检测器弱点的额外见解。

该论文在NINCO数据集和单元测试上对OOD检测方法进行了详细评估。作者分析了各种体系结构和OOD检测方法的性能，揭示了模型弱点和预训练对OOD检测性能的影响。在评估NINCO数据集时，该研究评估了从timm-library获得的不同IN-1K模型和先进的OOD检测方法。基于特征的技术，如Maha、RMaha和ViM，比MSP基线表现更好。Max-Logit和Energy也相对于MSP表现出明显的增强。性能结果基于所选模型和OOD检测方法而异。预训练被证明具有影响力，因为它有助于提高ID性能，并生成用于OOD检测的更优秀的特征嵌入。

总之，该研究解决了图像分类中评估OOD检测方法的限制。它介绍了NINCO数据集，该数据集包含没有来自ImageNet-1K（ID）类的对象的OOD样本，并提出使用OOD单元测试来评估检测器的弱点。在NINCO上的评估展示了不同模型和OOD检测方法的性能，突出了基于特征的技术的有效性和预训练对OOD检测性能的影响。NINCO通过提供一个干净的数据集和有关检测器弱点的见解来提高OOD检测方法的评估和理解。研究结果强调了改进OOD检测评估的重要性，并了解当前方法的优缺点。