基于文本的视频编辑旨在使用文本提示和现有的视频材料创建新的视频,无需任何手动劳动。这项技术有可能对包括社交媒体内容、营销和广告在内的各种行业产生重大影响。修改后的电影必须准确反映原始视频的内容,保持创建帧之间的时间连贯性,并与目标提示对齐,以在这个过程中获得成功。然而,同时满足所有这些要求可能会很具有挑战性。仅使用大量的文本-视频数据训练文本到视频模型需要大量的计算能力。
零样本和一样本基于文本的视频编辑方法使用了最近大规模文本到图像扩散模型和可编程图片编辑的发展。这些进展没有额外的视频数据,已经展示了对各种文本命令的影片修改的良好能力。然而,经验数据表明,尽管在与文本提示对齐的工作方面取得了巨大进展,但目前技术仍然不能恰当地和适当地处理输出,保持时间上的一致性。清华大学、中国人民大学、盛数和琶洲实验室的研究人员推出了ControlVideo,这是一种基于预训练的文本到图像扩散模型的先进方法,用于忠实可靠的基于文本的视频编辑。
从ControlNet中汲取灵感,ControlVideo通过包括Canny边缘图、HED边框和所有帧的深度图等可视化条件来放大源视频的方向。采用扩散模型预训练的ControlNet处理这些视觉情况。将这些情况与目前在基于文本的视频编辑方法中使用的文本和注意策略进行比较,值得注意的是,它们提供了更精确和适应性更强的视频控制方法。此外,为了提高保真度和时间上的一致性,同时避免过度拟合,扩散模型和ControlNet中的注意模块都经过了精心构建和微调。
更具体地说,他们将这两个模型中的初始空间自我注意力变换为关键帧注意力,将所有帧与所选帧对齐。扩散模型还包括时间注意力模块作为额外的分支,然后是零卷积层,以在微调之前保留输出。他们在相应网络中使用原始空间自我注意权重作为关键帧和时间注意力的初始化,因为观察到不同的注意机制模拟不同位置之间的关系,但始终模拟图像特征之间的关系。
为了指导未来关于一次调整的视频扩散模型骨干的研究,他们对ControlVideo的基本要素进行了全面的实证研究。该工作调查了自我注意力微调的关键和值设计、参数、初始化技术以及引入时间注意力的本地和全局位置。根据他们的发现,主UNet(除了中间块)可以通过选择一个关键帧作为关键和值、微调WO以及将时间注意力与自我注意力(本研究中的关键帧注意力)相结合来发挥最佳作用。
他们还仔细研究了每个组件的贡献以及总体影响。根据这项工作,他们收集了40个视频文本对进行研究,包括Davis数据集和其他来自互联网的数据集。在许多措施下,他们与基于帧稳定的扩散和SOTA基于文本的视频编辑技术进行了比较。特别是,他们采用SSIM分数衡量保真度,采用CLIP评估文本对齐和时间一致性。他们还进行了用户研究,将ControlVideo与所有基线进行比较。
许多研究结果表明,ControlVideo在保真度和时间一致性方面表现不亚于文本对齐,但明显优于所有这些基准线。他们的实证结果特别突出了ControlVideo创建具有极其逼真视觉质量的电影的吸引力以及在可靠地遵循书面说明的同时保持源材料的能力。例如,ControlVideo在化妆方面成功了,同时又能保留一个人独特的面部特征,这是其他技术都无法做到的。
此外,ControlVideo利用各种控制类型,包括从原始视频中提取不同数量的信息,可以实现视频保真度和可编辑性之间的可定制权衡(见图1)。例如,HED边界提供了原始视频的精确边界细节,适用于紧密控制,如面部视频编辑。姿势包括原始视频的运动数据,使用户在保留运动传输的同时更自由地修改主题和背景。此外,他们展示了如何混合多个控件以从各种控件类型的优势中获益。