Press "Enter" to skip to content

用UniDetector检测任何你想要的东西

用UniDetector检测任何你想要的东西 四海 第1张用UniDetector检测任何你想要的东西 四海 第2张

深度学习和人工智能在近年来在检测模型方面取得了显著的进展。尽管取得了令人印象深刻的进步,但目标检测模型的有效性主要依赖于大规模的基准数据集。然而,挑战在于目标类别和场景的变化。在现实世界中,与现有图像存在显著差异,并且可能出现新的目标类别,因此需要重新构建数据集以确保目标检测器的成功。不幸的是,这严重影响了它们在开放世界情景中的泛化能力。相比之下,即使是儿童,人类也能够在新环境中快速适应和良好泛化。因此,人工智能系统与人类智能之间的普遍性不足仍然是一个值得关注的差距。

克服这一限制的关键是开发一种通用的目标检测器,以实现对任何给定场景中所有类型的目标的检测能力。这样的模型将具备在未知情况下有效运作而无需重新训练的显著能力。这样的突破将显著接近使目标检测系统像人类一样智能的目标。

通用的目标检测器必须具备两个关键能力。首先,它应该使用来自各种来源和多样的标签空间的图像进行训练。在分类和定位方面进行大规模协作训练是确保检测器获得足够信息以有效泛化的关键。理想的大规模学习数据集应包含许多图像类型,涵盖尽可能多的目标类别,具有高质量的边界框注释和广泛的类别词汇。不幸的是,由于人类注释者的限制,实现这样的多样性是具有挑战性的。在实践中,虽然小词汇量的数据集提供了更清晰的注释,但较大的数据集存在噪声并可能存在不一致性。此外,专门的数据集专注于特定类别。为了实现普遍性,检测器必须从具有不同标签空间的多个来源学习,以获得全面和完整的知识。

用UniDetector检测任何你想要的东西 四海 第3张

其次,检测器应该展示对开放世界的强大泛化能力。它应能够准确预测在训练过程中未见过的新类别的标签,而没有显著的性能下降。然而,仅依靠视觉信息无法实现这一目的,因为全面的视觉学习需要人类注释来进行全面监督学习。

为了克服这些限制,提出了一种名为“UniDetector”的新型通用目标检测模型。

架构概述如下图所示。

用UniDetector检测任何你想要的东西 四海 第4张

要实现通用目标检测器的两个关键能力,需要解决两个相应的挑战。第一个挑战是使用多源图像进行训练,其中图像来自不同的来源,并与多样化的标签空间相关联。现有的检测器仅能预测来自一个标签空间的类别,而数据集特定的分类法和数据集之间的标注不一致性使得统一多个异构标签空间变得困难。

第二个挑战涉及新类别的区分。受近期研究中图像-文本预训练的成功启发,作者利用带有语言嵌入的预训练模型来识别未见过的类别。然而,全面监督训练往往会使检测器偏向于关注训练过程中出现的类别。因此,在推断时,模型可能会偏向基础类别,并对新类别产生不自信的预测。尽管语言嵌入提供了预测新类别的潜力,但其性能仍远远落后于基础类别。

UniDetector被设计来解决上述挑战。研究人员利用语言空间探索各种结构,以有效地训练具有异构标签空间的检测器。他们发现采用分区结构可以促进特征共享,同时避免标签冲突,这对于检测器的性能是有益的。

为了增强区域建议阶段对新类别的泛化能力,作者将建议生成阶段与RoI(感兴趣区域)分类阶段解耦,选择分别进行训练而不是联合训练。这种方法利用了每个阶段的独特特征,有助于检测器的整体普遍性。此外,他们引入了一个无类别定位网络(CLN)以实现广义的区域建议。

此外,作者提出了一种概率校准技术来消除预测的偏差。他们估计了所有类别的先验概率,然后根据这个先验概率调整了预测的类别分布。这种校准显著提高了物体检测系统中新类别的性能。根据作者的说法,UniDetector可以超过当前最先进的CNN检测器Dyhead,达到6.3%的平均精度(AP)。

这是UniDetector的摘要,它是一种针对通用物体检测设计的新型人工智能框架。如果您对该工作感兴趣并希望了解更多信息,您可以通过点击下面的链接找到更多信息。

Leave a Reply

Your email address will not be published. Required fields are marked *