Press "Enter" to skip to content

新加坡国立大学(NTU)的这篇AI论文介绍了MeVIS:一个用于带有运动表达的视频分割的大规模基准测试

新加坡国立大学(NTU)的这篇AI论文介绍了MeVIS:一个用于带有运动表达的视频分割的大规模基准测试 四海 第1张新加坡国立大学(NTU)的这篇AI论文介绍了MeVIS:一个用于带有运动表达的视频分割的大规模基准测试 四海 第2张

语言引导的视频分割是一个新兴的领域,专注于使用自然语言描述在视频中分割和跟踪特定对象。目前用于指代视频对象的数据集通常强调突出的对象,并依赖于具有许多静态属性的语言表达式。这些属性允许在仅一个帧中识别目标对象。然而,这些数据集忽视了语言引导的视频对象分割中运动的重要性。

新加坡国立大学(NTU)的这篇AI论文介绍了MeVIS:一个用于带有运动表达的视频分割的大规模基准测试 四海 第3张
https://arxiv.org/abs/2308.08544

研究人员引入了一个名为MeVIS的新的大规模数据集,称为运动表达视频分割(MeViS),以帮助我们的研究。MeViS数据集包含2,006个视频,8,171个对象,并提供了28,570个运动表达式来指代这些对象。上面的图像显示了MeViS中主要关注运动属性的表达式,仅仅通过检查一个单一的帧无法识别所指的目标对象。例如,第一个示例展示了三只外貌相似的鹦鹉,目标对象被确定为“飞走的鸟”。只有通过捕捉整个视频中的运动才能识别出这个对象。

几个步骤确保MeVIS数据集强调视频的时间动态。

首先,精心选择包含多个与运动共存的对象的视频内容,并排除了只能用静态属性描述的孤立对象的视频。

其次,在语言表达式中优先选择不包含静态线索的表达式,例如类别名称或对象颜色,在这种情况下,目标对象仅通过运动词语就可以明确描述。

除了提出MeViS数据集之外,研究人员还提出了一种名为语言引导的运动感知和匹配(LMPM)的基线方法,以应对这个数据集带来的挑战。他们的方法涉及生成以语言为条件的查询,以识别视频中的潜在目标对象。然后,使用对象嵌入来表示这些对象,与对象特征图相比,对象嵌入更稳健且计算效率更高。研究人员将运动感知应用于这些对象嵌入,以捕捉视频中的时间上下文,并建立对视频的整体运动动态的理解。这使得他们的模型能够把握视频中的瞬时和持久的运动。

新加坡国立大学(NTU)的这篇AI论文介绍了MeVIS:一个用于带有运动表达的视频分割的大规模基准测试 四海 第4张
https://arxiv.org/abs/2308.08544

上图显示了LMLP的架构。他们使用Transformer解码器来解释受运动影响的组合对象嵌入中的语言,以预测对象的移动。然后,将语言特征与投影的对象移动进行比较,以找到表达式中提到的目标对象。这种创新的方法将语言理解和运动评估合并在一起,有效地处理了复杂的数据集任务。

这项研究为开发更先进的语言引导视频分割算法奠定了基础。它在更具挑战性的方向上开辟了更多的途径,例如:

  • 探索更好的运动理解和建模技术,结合视觉和语言模态。
  • 创建更高效的模型,减少冗余检测到的对象数量。
  • 设计有效的跨模态融合方法,利用语言和视觉信号之间的互补信息。
  • 开发可以处理复杂场景中各种对象和表达式的先进模型。

解决这些挑战需要进行研究,推动语言引导视频分割领域的最新技术前进。

Leave a Reply

Your email address will not be published. Required fields are marked *