Press "Enter" to skip to content

遇见VideoSwap:一种通过交互式语义点对应来自定义视频主题交换的人工智能框架

最近,视频编辑领域取得了重要的进展,其中以使用人工智能(AI)进行编辑的技术为主导。新的众多技术涌现出来,其中以基于扩散的视频编辑为特别有前景的领域。它利用预训练的文本到图像/视频扩散模型来实现风格改变、背景替换等任务。然而,视频编辑最具挑战性的部分是将来自源视频的运动转移到编辑后的视频中,并在整个过程中确保时间上的一致性。

大多数视频编辑工具注重通过确保时间一致性和运动对齐来保留视频的结构。然而,在处理视频中形状的改变时,该过程变得无效。为了弥补这一差距,本文的作者(新加坡国立大学Show Lab和GenAI,Meta的研究人员)介绍了VideoSwap框架,该框架使用语义点对应来对齐主体的运动轨迹并改变其形状,而不是密集的点对应。

使用密集对应可以更好地保持时间上的一致性,但它限制了在编辑后的视频中主体形状的改变。虽然使用语义点对应是一种灵活的方法,但它在不同的开放世界设置中会有所变化,这使得难以训练一个通用条件模型。研究人员尝试仅使用有限数量的源视频帧来学习语义点控制。他们发现优化源视频帧上的点可以对齐主体的运动轨迹并改变主体的形状。此外,优化的语义点也可以在语义和低层次的更改之间进行传递。这些观察结果为使用语义点对应在视频编辑中提供了依据。

研究人员通过以下方式设计了该框架。他们将运动层集成到图像扩散模型中,以确保时间上的一致性。他们还在源视频中识别语义点并利用它们来传输运动轨迹。该方法仅关注高级语义对齐,从而防止过度学习低级细节,从而增强语义点对齐。此外,VideoSwap还具有用户点互动功能,例如删除或拖动多个语义点对应。

研究人员使用潜在扩散模型实施了该框架,并采用AnimateDiff中的运动层作为基础模型。他们发现,与先前的视频编辑方法相比,VideoSwap在同时对齐源运动轨迹、保留目标概念身份的基础上实现了显著的形状改变。研究人员还利用人工评估者验证了他们的结果,结果明确表明VideoSwap在主体身份、运动对齐和时间一致性等指标上优于其他比较方法。

总之,VideoSwap是一个多功能框架,可用于视频编辑,即使涉及复杂的形状也可以。它在过程中限制了人工干预,并使用语义点对应来实现更好的视频主体替换。该方法还允许在同时改变形状的同时将运动轨迹与源对象对齐,并在多个指标上优于先前的方法,展示了定制视频主体替换的最新成果。

Leave a Reply

Your email address will not be published. Required fields are marked *