Press "Enter" to skip to content

谷歌AI研究提出了VidLNs:一种获得语义正确且与准确的时空定位紧密关联的丰富视频描述的注释过程

谷歌AI研究提出了VidLNs:一种获得语义正确且与准确的时空定位紧密关联的丰富视频描述的注释过程 四海 第1张谷歌AI研究提出了VidLNs:一种获得语义正确且与准确的时空定位紧密关联的丰富视频描述的注释过程 四海 第2张

视觉和语言研究是一个不断发展的领域,最近取得了显著的进展,特别是在建立静态图像和相应标题之间联系的数据集方面。这些数据集还涉及使用多种方法将标题中的某些词与图像中的特定区域关联起来。最新的本地化叙事(ImLNs)提供了一种有趣的方法:注释者在描述图像的同时,通过鼠标光标移动来标记他们讨论的区域。这种语音和光标移动的双重过程反映了自然交流,为每个单词提供了全面的视觉基础。然而,值得注意的是,静态图像只能捕捉到一瞬间。注释视频的前景更具吸引力,因为视频展示了完整的叙事,展示了多个实体和物体动态交互的事件。

为了解决这个耗时且复杂的任务,提出了一种增强的注释方法,将ImLNs扩展到视频中。

所提出技术的流程如下所示。

谷歌AI研究提出了VidLNs:一种获得语义正确且与准确的时空定位紧密关联的丰富视频描述的注释过程 四海 第3张

这种新的协议允许注释者在受控环境中构建视频叙事。注释者开始仔细观察视频,识别主要角色(如“男人”或“鸵鸟”),并选择代表每个角色重要时刻的关键帧。

随后,针对每个角色单独构建叙事。注释者在同时引导光标在关键帧上突出显示相关对象和动作的同时,使用口头描述表达角色在各种事件中的参与。这些口头描述包括角色的名称、属性,特别是它所承担的动作,包括与其他角色的互动(例如“与鸵鸟玩耍”)和与无生命物体的互动(例如“拿起食物杯”)。为了提供全面的背景信息,注释者还在单独的阶段提供了对背景的简要描述。

有效地使用关键帧消除了时间限制,而为每个角色创建独特的叙述使得复杂情况的分解成为可能。这种分解有助于全面描绘涉及多个角色相互交互和与许多被动物体互动的多面事件。与ImLN类似,这个协议利用鼠标轨迹段来定位每个单词。该研究还实施了几项额外措施,以确保精确定位,超过了先前工作的成果。

研究人员使用视频本地化叙事(VidLNs)在不同的数据集上进行了注释。考虑到的视频展示了复杂的场景,其中各种角色和无生命物体之间的交互,通过详细的注释描述了引人入胜的叙事。以下是一个示例。

谷歌AI研究提出了VidLNs:一种获得语义正确且与准确的时空定位紧密关联的丰富视频描述的注释过程 四海 第4张

VidLNs数据集的深度为各种任务(如视频叙事基础(VNG)和视频问答(VideoQA))提供了坚实的基础。新引入的VNG挑战要求开发一种能够通过在视频帧上生成分割掩码来定位输入叙述中的名词的技术。这个任务面临着重大挑战,因为文本中经常包含多个相同的名词,需要从周围词语中利用上下文线索进行消歧。虽然这些新的基准测试仍然是复杂的挑战,并远未完全解决,但所提出的方法在正确的方向上取得了有意义的进展(有关详细信息,请参阅已发表的论文)。

这是关于视频本地化叙事的总结,这是一种将视觉和语言连接起来的新型多模态视频注释。如果您对此感兴趣并想了解更多信息,请随时参考下面引用的链接。

Leave a Reply

Your email address will not be published. Required fields are marked *