Press "Enter" to skip to content

这篇来自中国的AI论文提出了HQTrack:一个用于在视频中高质量追踪任何物体的AI框架

这篇来自中国的AI论文提出了HQTrack:一个用于在视频中高质量追踪任何物体的AI框架 四海 第1张这篇来自中国的AI论文提出了HQTrack:一个用于在视频中高质量追踪任何物体的AI框架 四海 第2张

视觉目标跟踪是计算机视觉中许多子领域的基础,包括机器人视觉和自动驾驶。该任务旨在可靠地识别视频序列中的目标对象。许多最先进的算法在视觉目标跟踪(VOT)挑战中竞争,因为它是跟踪领域中最重要的比赛之一。

视觉目标跟踪和分割竞赛(VOTS2023)取消了以往VOT挑战所施加的一些限制,使参与者可以更广泛地思考目标跟踪。因此,VOTS2023结合了对单个目标的短期和长期监控以及对多个目标的跟踪,仅使用目标分割作为位置指定。这引入了新的困难,例如精确的掩模估计、多目标轨迹跟踪和对象之间的关系识别。

中国大连理工大学和阿里巴巴达摩院的一项新研究提出了一个名为HQTrack的系统,它代表高质量跟踪。它主要包括一个视频多目标分割器(VMOS)和一个掩模优化器(MR)。为了感知复杂设置中的微小对象,研究人员采用了VMOS,这是DeAOT的增强版本,并在1/8比例上级联了一个门控传播模块(GPM)。此外,他们使用Intern-T作为特征提取器,以提高区分不同类型对象的能力。在VMOS中,研究人员仅保留最近使用的帧在长期记忆中,舍弃旧帧以腾出空间。然而,应用大型分割模型来改进跟踪掩模可能是有用的。复杂结构的对象对SAM的预测尤其具有挑战性,并且在VOTS挑战中经常出现。

这篇来自中国的AI论文提出了HQTrack:一个用于在视频中高质量追踪任何物体的AI框架 四海 第3张

使用已经预训练的HQ-SAM模型,团队可以进一步提高跟踪掩模的质量。最终的跟踪结果是从VMOS和MR中选择的,并且使用预测掩模的外包围框作为盒子提示,与原始图像一起输入HQ-SAM以获得优化后的掩模。HQTrack在VOTS2023比赛中以0.615的质量得分获得第二名。

Leave a Reply

Your email address will not be published. Required fields are marked *