新加坡国立大学（NTU）的这篇AI论文介绍了MeVIS：一个用于带有运动表达的视频分割的大规模基准测试

新加坡国立大学（NTU）的这篇AI论文介绍了MeVIS：一个用于带有运动表达的视频分割的大规模基准测试四海第1张

语言引导的视频分割是一个新兴的领域，专注于使用自然语言描述在视频中分割和跟踪特定对象。目前用于指代视频对象的数据集通常强调突出的对象，并依赖于具有许多静态属性的语言表达式。这些属性允许在仅一个帧中识别目标对象。然而，这些数据集忽视了语言引导的视频对象分割中运动的重要性。

新加坡国立大学（NTU）的这篇AI论文介绍了MeVIS：一个用于带有运动表达的视频分割的大规模基准测试四海第3张 — https://arxiv.org/abs/2308.08544

研究人员引入了一个名为MeVIS的新的大规模数据集，称为运动表达视频分割（MeViS），以帮助我们的研究。MeViS数据集包含2,006个视频，8,171个对象，并提供了28,570个运动表达式来指代这些对象。上面的图像显示了MeViS中主要关注运动属性的表达式，仅仅通过检查一个单一的帧无法识别所指的目标对象。例如，第一个示例展示了三只外貌相似的鹦鹉，目标对象被确定为“飞走的鸟”。只有通过捕捉整个视频中的运动才能识别出这个对象。

几个步骤确保MeVIS数据集强调视频的时间动态。

首先，精心选择包含多个与运动共存的对象的视频内容，并排除了只能用静态属性描述的孤立对象的视频。

其次，在语言表达式中优先选择不包含静态线索的表达式，例如类别名称或对象颜色，在这种情况下，目标对象仅通过运动词语就可以明确描述。

除了提出MeViS数据集之外，研究人员还提出了一种名为语言引导的运动感知和匹配（LMPM）的基线方法，以应对这个数据集带来的挑战。他们的方法涉及生成以语言为条件的查询，以识别视频中的潜在目标对象。然后，使用对象嵌入来表示这些对象，与对象特征图相比，对象嵌入更稳健且计算效率更高。研究人员将运动感知应用于这些对象嵌入，以捕捉视频中的时间上下文，并建立对视频的整体运动动态的理解。这使得他们的模型能够把握视频中的瞬时和持久的运动。

新加坡国立大学（NTU）的这篇AI论文介绍了MeVIS：一个用于带有运动表达的视频分割的大规模基准测试四海第4张 — https://arxiv.org/abs/2308.08544

上图显示了LMLP的架构。他们使用Transformer解码器来解释受运动影响的组合对象嵌入中的语言，以预测对象的移动。然后，将语言特征与投影的对象移动进行比较，以找到表达式中提到的目标对象。这种创新的方法将语言理解和运动评估合并在一起，有效地处理了复杂的数据集任务。

这项研究为开发更先进的语言引导视频分割算法奠定了基础。它在更具挑战性的方向上开辟了更多的途径，例如：

探索更好的运动理解和建模技术，结合视觉和语言模态。
创建更高效的模型，减少冗余检测到的对象数量。
设计有效的跨模态融合方法，利用语言和视觉信号之间的互补信息。
开发可以处理复杂场景中各种对象和表达式的先进模型。

解决这些挑战需要进行研究，推动语言引导视频分割领域的最新技术前进。