南方科技大学VIP实验室提出了一种名为“轨迹任意模型”(Track Anything Model, TAM)的方法，在视频中实现了高性能的交互式跟踪和分割

南方科技大学VIP实验室提出了一种名为“轨迹任意模型”(Track Anything Model, TAM)的方法，在视频中实现了高性能的交互式跟踪和分割四海第1张

视频目标跟踪（VOT）是计算机视觉研究的基石，因为在无约束的环境中追踪未知目标的意义重大。视频对象分割（VOS）是一种类似于VOT的技术，旨在识别视频中感兴趣的区域，并将其与帧的其他部分隔离开来。目前最好的视频跟踪器/分割器是通过分割掩模或边界框启动，并在大规模手动注释的数据集上进行训练的。大量的标记数据一方面隐藏了庞大的人力，另一方面，半监督的VOS在现有的初始化参数下需要一个唯一的对象掩模基本事实。

“任意分割”方法（SAM）是最近开发的用于图像分割的综合基准。得益于其可适应的提示和实时掩模计算，它可以进行交互使用。当以点、框或语言的形式提供用户友好的建议时，SAM可以返回指定图像区域的满意的分割掩模。然而，由于其缺乏时间一致性，研究人员在SAM立即应用于视频时并不看到令人瞩目的性能。

南方科技大学VIP实验室的研究人员介绍了“Track Anything”项目，为视频目标跟踪和分割创造了强大的工具。 Track Anything模型（TAM）具有直观的界面，可以在一次推理中跟踪和分割视频中的任何对象。

TAM是SAM的扩展，是一个大规模分割模型，集成了最先进的VOS模型XMem。用户可以通过交互初始化SAM（即点击对象）定义目标对象；接下来，XMem根据时间和空间对应关系对下一帧中的对象进行掩模预测。最后，SAM提供了更精确的掩模描述；用户可以在跟踪过程中暂停和纠正，一旦注意到跟踪失败。

TAM在TAM的分析中使用了DAVIS-2016验证集和DAVIS-2017测试开发集。最值得注意的是，研究结果表明TAM在具有挑战性和复杂环境中表现出色。TAM可以处理多对象分离、目标变形、尺寸变化和相机运动等问题，展示了在仅点击初始化和一轮推理下的出色跟踪和分割能力。

提出的Track Anything模型（TAM）为自适应视频跟踪和分割提供了多种选择，包括但不限于以下内容：

快速简便的视频转录： TAM可以将电影中的感兴趣区域分离出来，并允许用户选择他们想要跟踪的项目。这意味着它可以用于视频注释，如跟踪和分割视频对象。
长时间观察一个对象：由于长期跟踪在许多现实世界应用中具有重要意义，研究人员对此越来越关注。TAM的现实世界应用更加先进，因为它们可以适应长视频中频繁的镜头变换。
易于使用的视频编辑器： Track Anything模型允许我们将事物分成不同的类别。TAM的对象分割掩模使我们能够选择性地剪切或重新定位电影中的任何对象。
用于可视化和开发视频相关活动的工具箱：团队还为各种视频操作提供了可视化用户界面，包括VOS、VOT、视频修复等，以便于它们的使用。用户可以在真实场景的素材上测试他们的模型，并通过工具箱实时查看结果。