Press "Enter" to skip to content

增强视频基础模型的任务特异性适应性:引入视频适配器作为概率框架,用于适应文本到视频模型

增强视频基础模型的任务特异性适应性:引入视频适配器作为概率框架,用于适应文本到视频模型 机器学习 第1张增强视频基础模型的任务特异性适应性:引入视频适配器作为概率框架,用于适应文本到视频模型 机器学习 第2张

基于互联网规模数据训练的大型文本到视频模型展现出了从任意编写描述生成高保真电影的非凡能力。然而,微调预训练的巨型模型可能代价高昂,难以将这些模型适应于具有有限领域特定数据的应用,例如动画或机器人视频。Google DeepMind、加州大学伯克利分校、麻省理工学院和艾伯塔大学的研究人员探索了如何在不进行微调的情况下自定义大型预训练文本到视频模型以适应各种下游领域和任务,灵感来自于一个小型可修改组件(如提示、前缀微调)如何使大型语言模型能够执行新任务而不需要访问模型权重。为了解决这个问题,他们提出了Video Adapter,一种通过使用大型预训练视频扩散模型的得分函数作为先验概率来生成特定任务的微小视频模型的方法。实验表明,Video Adapter可以使用预训练模型的参数仅占1.25%,以包含广泛的知识并在特定任务的微小视频模型中保持高保真度。可以使用Video Adapter生成高质量的特定任务的电影,包括但不限于动画、自我中心建模以及模拟和真实世界机器人数据的建模。

研究人员在各种视频创作工作中测试了Video Adapter。在困难的Ego4D数据和机器人Bridge数据上,Video Adapter生成的视频比高质量的预训练大型视频模型具有更好的FVD和Inception Scores,同时使用的参数少达80倍。研究人员定性地证明了Video Adapter可以生成类别特定的视频,如科幻电影和动画电影。此外,研究的作者展示了Video Adapter如何通过建模真实和模拟机器人电影并允许个性化风格化来为弥合机器人的臭名昭着的模拟到实际差距铺平道路。

主要特点

  • 为了实现高质量且多功能的视频合成而无需在预训练模型上进行梯度更新,Video Adapter在采样时将预训练文本到视频模型的分数与领域特定微小模型的分数(仅使用1%参数)组合。
  • 使用Video Adapter可以轻松地将预训练视频模型适应于人类和机器人数据的电影。
  • 在相同的TPU小时数下,Video Adapter获得的FVD、FID和Inception Scores高于预训练模型和特定任务模型。
  • Video Adapter的潜在用途范围从动漫制作到领域随机化,以弥合机器人中的模拟现实差距。
  • 与从互联网数据预训练的巨型视频模型相反,Video Adapter需要训练具有数量级更少参数的微小领域特定文本到视频模型。Video Adapter通过在采样期间组成预训练和领域特定视频模型的分数来实现高质量和可适应的视频合成。
  • 使用Video Adapter,您可以使用仅暴露于一种类型动画的模型赋予视频独特的外观。
  • 使用Video Adapter,预训练模型的大小可呈现出远比较小的动画模型的视觉特征。
  • 借助Video Adapter,巨大的预训练模型可以具有迷你Sci-Fi动画模型的视觉美感。
  • Video Adapter可以生成各种类型和风格的电影,包括基于操作和导航的自我中心运动的视频,具有动画和科幻等个性化流派的视频以及具有模拟和真实机器人运动的视频。

限制

仍需要在领域特定数据上训练小型视频模型;因此,虽然Video Adapter可以有效地适应预训练的大型文本到视频模型,但它并不是无需训练的。与其他文本到图像和文本到视频API的区别在于它要求得分与生成的视频一起输出。通过解决模型权重的缺乏和计算效率的问题,Video Adapter有效地使文本到视频研究对小型工业和学术机构更具可行性。

总之

很明显,随着文本到视频基础模型的扩大,它们将需要有效地适应任务特定的使用。研究人员开发了Video Adapter,这是一种强大的方法,通过使用巨型预训练文本到视频模型作为概率先验来生成领域和任务特定的电影。Video Adapter可以在不需要更多微调巨型预训练模型的情况下合成专业学科或所需美学的高质量视频。

Leave a Reply

Your email address will not be published. Required fields are marked *