

稀疏特征跟踪或密集光流一直是运动估计算法中使用的两种主要方法。这两种方法在各自的应用中都取得了成功。然而,这两种方法都不能完全捕捉视频的运动情况:稀疏跟踪不能描述所有像素的运动。相反,成对光流不能捕捉跨越大时序帧的运动轨迹。为了缩小这种差距,许多方法已被用于预测视频中的密集和长程像素轨迹。这些方法从简单的两帧光流场链接技术到直接预测经过多个帧的每个像素轨迹的更高级算法。
然而,所有这些方法在计算速度时都忽略了当前时间或地理上下文的信息。这种本地化可能会导致运动估计在时空上存在不一致性,并在扩展轨迹上积累错误。即使以前的技术考虑了长程上下文,它们也是在2D域中这样做的,这导致了在遮挡情况下的跟踪丢失。创建密集和长程轨迹仍然存在一些问题,包括跟踪遮挡点,保持空间和时间的一致性以及在长时间内保持准确的跟踪。在这项研究中,康奈尔大学、谷歌研究和加州大学伯克利分校的研究人员提供了一种全面的方法,通过使用所有可用的视频数据,为电影中的每个像素估计全长运动轨迹。
他们的方法称为OmniMotion,使用准3D表示,其中一组本地-规范双射将规范3D体积映射到每个帧的本地体积。这些双射将相机和场景运动的组合描述为动态多视角几何的灵活松弛。它们可以监视所有像素,即使是被遮挡的像素,其表示确保周期一致性(“Everything, Everywhere”)。为了联合解决整个视频的运动,“All at Once”,他们为每个视频优化了他们的表示。优化后,电影中的任何连续坐标都可以查询其表示以获得跨越整个物体的运动轨迹。
总之,他们提供了一种可以处理任何相机和场景运动组合的野外电影的方法:
- 为整个视频中的所有点生成全局一致的全长运动轨迹。
- 可以跟踪穿过遮挡的点。
- 可以跟踪穿过遮挡的点。
他们在TAP视频跟踪基准测试中统计说明了这些优势,其中他们获得了最先进的性能,并大大超过了所有以前的技术。他们在其网站上发布了几个演示视频,并计划很快发布代码。
从上面的运动路线可以看出,他们提供了一种新颖的技术,用于计算电影中每个帧中每个像素的全长运动轨迹。尽管我们的技术计算了所有像素的运动,但他们仅显示前景对象的稀疏轨迹以保持清晰度。他们的方法即使对于快速移动的物体也能产生精确、连贯的长程运动,并可靠地跨越遮挡,例如狗和秋千的示例。移动物品在第二行中的不同时间点显示,以提供上下文。