遇见SEINE：一种用于高质量延伸视频的短至长视频扩散模型，能够在场景之间实现流畅而有创意的过渡

鉴于扩散模型在文本到图像生成中的成功，涌现出了一系列视频生成技术，展示了在这个领域的有趣应用。然而，大多数视频生成技术往往以“镜头级别”生成视频，仅包含几秒钟的内容和一个场景。鉴于其内容的简洁性，这些视频显然无法满足电影和影视制作的需求。

在电影或工业级视频制作中，通常以创建包含不同场景的不同镜头为特征“故事级别”的长视频。这些不同长度的单个镜头通过转场和编辑等技术相互连接，促进了更长的视频和更复杂的视觉叙事。在影视和视频编辑中结合场景或镜头的方法，称为过渡，对后期制作起着关键作用。传统的过渡方法，如溶解、淡入、擦除，依赖预定义的算法或已建立的界面。然而，这些方法缺乏灵活性，通常受到限制。

一个无缝过渡的替代方法是使用各种富有想象力的镜头以平滑的方式从一个场景切换到另一个场景。这种在电影中常用的技术不能直接使用预定义的程序生成。

本文介绍了一种解决生成两个不同场景之间无缝顺畅过渡的较少见问题的模型，该模型专注于在两个不同场景之间生成中间帧。

这个模型要求生成的过渡帧在语义上与给定的场景图像相关、连贯、平滑，并与提供的文本一致。

本文介绍了一种称为SEINE的短到长视频扩散模型，用于生成具有平滑而创意的场景之间过渡的高质量长视频，包括不同长度的镜头级别视频。下面的图示给出了该方法的概述。

遇见SEINE：一种用于高质量延伸视频的短至长视频扩散模型，能够在场景之间实现流畅而有创意的过渡四海第3张-四海吧

为了基于可观察的条件图像或视频生成以前未见过的过渡和预测帧，SEINE采用了随机蒙版模块。基于视频数据集，作者从原始视频中提取出N帧，这些帧由预训练的变分自编码器编码为潜在向量。此外，模型接受文本描述作为输入，以增强过渡视频的可控性并利用短文本到视频生成的能力。

在训练阶段，潜在向量受到噪声的破坏，并应用随机蒙版条件层捕获帧之间的中间表示。掩蔽机制选择性地保留或抑制原始潜在代码的信息。SEINE将掩蔽潜在代码和掩蔽本身作为条件输入，以确定哪些帧被掩蔽，哪些保持可见。模型被训练以预测影响整个损坏潜在代码的噪声。这意味着学习影响未掩蔽帧和文本描述的噪声的潜在分布。通过对噪声进行建模和预测，模型旨在生成逼真和视觉一致的过渡帧，将可见帧与未掩蔽帧无缝融合。

以下是从研究中选取的一些序列。

遇见SEINE：一种用于高质量延伸视频的短至长视频扩散模型，能够在场景之间实现流畅而有创意的过渡四海第4张-四海吧

这就是SEINE的概述，它是一个用于生成具有平滑和创意过渡的高质量扩展视频的短到长视频扩散模型。如果您感兴趣并希望了解更多信息，请随时参考下面引用的链接。