认识AnyLoc：最新的通用视觉位置识别（VPR）方法

认识AnyLoc：最新的通用视觉位置识别（VPR）方法四海第1张

随着人工智能领域的不断发展，它已经在许多用例中找到了应用，包括机器人技术。考虑到视觉位置识别(VPR)是估计机器人状态的关键技能，并广泛应用于各种机器人系统，如可穿戴技术、无人机、自动驾驶车辆和地面机器人。利用视觉数据，VPR使机器人能够识别和理解其所处环境中的当前位置或地点。

在各种情境下实现VPR的普适应用一直是困难的。虽然现代VPR方法在应用于与其所学环境相似的情境(如城市驾驶场景)时表现良好，但在各种其他环境中(如水下或空中环境)的效果显著下降。为了解决这个问题，人们努力设计一种通用的VPR解决方案，可以在任何环境中无误地运行，包括空中、水下和地下环境，不受白天-黑夜或季节变化等变化的影响，并且从任何视角都不受透视变化(包括直接相反的视角)的影响。

为了解决这些限制，一组研究人员提出了一种新的基线VPR方法，称为AnyLoc。该团队研究了来自大规模预训练模型的视觉特征表示，他们将其称为基础模型，作为仅依赖于VPR特定训练的替代选择。虽然这些模型最初并不是为VPR而训练的，但它们存储了丰富的视觉特征，有望成为一个全面的VPR解决方案的基石。

在AnyLoc技术中，仔细选择具有所需不变性属性的最佳基础模型和视觉特征，其中不变性属性包括模型在环境或视点变化时保持特定视觉特性的能力。然后将经常在VPR文献中使用的流行的局部汇聚方法与这些选择的属性进行合并。通过使用局部汇聚技术，可以更有根据的从视觉输入的不同区域整合数据，以更准确地进行位置识别。

AnyLoc通过将基础模型的丰富视觉元素与局部聚合技术相结合，使装备有AnyLoc的机器人在各种环境中极具适应性和实用性。它可以在各种环境中进行视觉位置识别，无论是一天中的任何时间还是一年中的任何时间，无论是从任何角度观察。该团队总结了研究结果如下。

通用的VPR解决方案：AnyLoc被提出作为VPR的新基线，在包含地点、时间和视角变化的12个不同数据集中无缝运行。

特征-方法协同作用：将像DINOv2这样的自监督特征与像VLAD或GeM这样的无监督聚合相结合，相对于直接使用现成模型的每个图像特征，可以显著提高性能。

语义特征表征：分析聚合局部特征的语义属性，揭示了潜在空间中的不同领域，增强了VLAD词汇构建并提高了性能。

强大的评估：该团队在具有挑战性的VPR条件下对AnyLoc进行了多样化的数据集评估，如白天-黑夜变化和相反的视角，为未来的通用VPR研究奠定了坚实的基础。