Press "Enter" to skip to content

此AI论文提出了“MotionDirector”:一种人工智能方法来定制视频运动和外观

文本到视频扩散模型在近年来取得了显著进展。现在只需提供文本描述,用户就可以创建逼真或富有想象力的视频。这些基础模型也被调整为生成与特定外观、风格和主题相匹配的图像。然而,文本到视频生成中定制运动的领域仍需探索。用户可能想创建具有特定运动的视频,比如汽车向前行驶然后向左拐。因此,将扩散模型调整为创建更具体内容以满足用户偏好变得重要。

本文的作者提出了MotionDirector,帮助基础模型实现动作定制同时保持外观多样性。该技术使用双路径架构,将模型分别训练为学习给定单个或多个参考视频中的外观和动作,从而方便将定制运动概括到其他设置中。

双架构包括空间路径和时间路径。空间路径具有一个基础模型,其在每个视频的转换器层中集成了可训练的空间LoRAs(低秩调整)。这些空间LoRAs使用每个训练步骤中随机选择的单个帧进行训练,以捕捉输入视频的视觉属性。相反,时间路径复制了基础模型,并与空间路径共享空间LoRAs,以适应给定输入视频的外观。此外,此路径中的时间转换器还通过使用输入视频的多个帧进行培训来增强时间LoRAs,以掌握固有的动作模式。

仅通过部署经过训练的时间LoRAs,基础模型就可以合成具有多样外观的学习动作的视频。双架构使模型能够分别学习视频中物体的外观和动作。这种解耦使得MotionDirector能够将视频的外观和动作分离,然后从各种源视频中进行组合。

研究人员在几个基准测试中比较了MotionDirector的性能,涵盖了80多种不同的动作和600个文本提示。在UCF Sports Action基准测试中(包含95个视频和72个文本提示),MotionDirector的运动保真度更好,被人工评估者75%的时间受到青睐。该方法还优于基础模型的25%偏好。在第二个基准测试中,即LOVEU-TGVE-2023基准测试中(包含76个视频和532个文本提示),MotionDirector的表现优于其他可控生成和基于调整的方法。结果表明,可以使用MotionDirector定制多种基础模型,以产生具有多样性和所需运动概念的视频。

MotionDirector是一种将文本到视频扩散模型调整为生成具有特定运动的视频的有前景的新方法。它在学习和调整主题和相机的具体运动方面表现出色,并可用于生成具有各种视觉风格的视频。

MotionDirector可以改进的一点是学习参考视频中多个主题的运动。然而,即使有这个限制,MotionDirector仍具有提升视频生成的灵活性的潜力,允许用户制作符合其偏好和需求的视频。

Leave a Reply

Your email address will not be published. Required fields are marked *