DeepMind研究人员开源TAPIR：一种新的人工智能模型，用于跟踪视频序列中的任何点（TAP），有效跟踪查询点

DeepMind研究人员开源TAPIR：一种新的人工智能模型，用于跟踪视频序列中的任何点（TAP），有效跟踪查询点计算科学第1张

计算机视觉是人工智能领域中最受欢迎的领域之一。使用计算机视觉开发的模型能够从不同类型的媒体中提取有意义的信息，无论是数字图像、视频还是其他视觉输入。它教会了机器如何感知和理解视觉信息，然后根据细节采取行动。随着一种名为追踪任何点（TAPIR）的新模型的推出，计算机视觉取得了重大进步。TAPIR的目标是有效地跟踪视频序列中的特定兴趣点。

TAPIR模型由Google DeepMind、VGG、工程科学系和牛津大学的研究人员团队开发，其算法包括两个阶段——匹配阶段和精炼阶段。在匹配阶段，TAPIR模型单独分析每个视频序列帧，以寻找适合查询点的候选点匹配。这一步旨在确定查询点在每个帧中的最可能相关点，为了确保TAPIR模型能够跟踪查询点在视频中的运动，这个过程是逐帧进行的。

在确定候选点匹配的匹配阶段之后，TAPIR模型使用精炼阶段。在这个阶段中，TAPIR模型基于局部相关性更新轨迹（查询点所在路径）和查询特征，因此考虑到每个帧中的周围信息，以提高跟踪查询点的准确性和精度。通过集成局部相关性，精炼阶段提高了模型精确跟踪查询点的能力，并调整视频序列中的变化。

为了评估TAPIR模型，该团队使用了TAP-Vid基准测试数据集，它是用于视频跟踪任务的标准化评估数据集。结果显示，TAPIR模型的表现明显优于基线技术。使用称为平均Jaccard（AJ）的度量衡量的性能改进显示，TAPIR模型在DAVIS（密集注释视频分割）基准测试中的AJ相对于其他方法实现了约20%的绝对改进。

该模型旨在便于快速并行推理长视频序列，即它可以同时处理多个帧，提高跟踪任务的效率。该团队提到，该模型可以实时应用，使其能够处理和跟踪添加新视频帧的点。它可以在256×256视频上跟踪256个点，速度约为每秒40帧（fps），还可以扩展以处理更高分辨率的电影，使其具有处理各种大小和质量的视频的灵活性。

该团队为用户提供了两个在线Google Colab演示，以尝试TAPIR而无需安装。第一个Colab演示允许用户在自己的视频上运行模型，提供交互式体验以测试和观察模型的性能。第二个演示重点介绍如何在线运行TAPIR。此外，用户可以通过克隆提供的代码库，在现代GPU上跟踪自己的网络摄像头上的点并实时运行TAPIR。