一支来自字节跳动研究团队的研究者介绍了PixelDance,一种利用文本和图像指示来创建具有多样化和复杂运动的视频生成方法。通过这种方法,研究者展示了他们的系统的有效性,通过合成具有复杂场景和动作的视频,从而在视频生成领域树立了新的标准。PixelDance在合成具有复杂设置和活动的视频方面表现出色,超过了通常生成具有有限动作的视频的现有模型。该模型通过扩展到各种图像指示,并结合时间上连贯的视频片段来生成组合镜头。
与限于简单场景的文本到视频模型不同,PixelDance利用图像指示来增强视频复杂性,并实现更长的连续剪辑生成。这种创新克服了以前方法中出现的运动和细节限制,特别是在领域外内容方面。强调图像指令的优势,将PixelDance确定为生成具有复杂场景、动态动作和复杂摄像机运动的高动态范围视频的解决方案。
PixelDance架构将扩散模型和变分自编码器整合到输入空间中,以对图像指示进行编码。训练和推断技术聚焦于学习视频动力学,利用公共视频数据。PixelDance可扩展到各种图像指示,包括语义地图、草图、姿势和边界框。定性分析评估了文本、首帧和尾帧指示对生成的视频质量的影响。
基于FVD和CLIPSIM指标,PixelDance在MSR-VTT和UCF-101数据集上的表现优于以前的模型。对于UCF-101的消融研究展示了PixelDance组件如文本和最后帧指示在连续片段生成中的有效性。该方法提出了一些改进的思路,包括使用高质量视频数据进行训练、领域特定的微调和模型扩展。PixelDance展示了无需后期处理的视频编辑,将其转化为一项图像编辑任务。它在MSR-VTT和UCF-101数据集上生成满足文本提示的高质量复杂视频的令人印象深刻的定量结果。
PixelDance在合成具有复杂场景和动作的高质量视频方面表现出色,超过了最先进的模型。模型与文本提示的配合展示了其推进视频生成的潜力。已经确定了需要改进的领域,包括领域特定的微调和模型扩展。PixelDance引入了无需后期处理的视频编辑,将其转化为图像编辑任务,并始终生成时间上连贯的视频。定量评估证实了它能够根据文本提示生成高质量、复杂的视频的能力。
PixelDance对显式图像和文本指示的依赖可能会限制其在未知场景中的泛化能力。评估主要侧重于定量指标,需要更多主观质量评估。对训练数据来源和潜在偏差的影响没有进行深入探讨。需要全面讨论模型在可扩展性、计算需求和效率方面的局限性。模型处理特定视频内容类型(如高度动态场景)的能力仍需澄清。需要对其在多样领域和超出示例之外的视频编辑任务中的普适性进行全面讨论。