稳定传播视频解释

深入研究稳定视频扩散

订阅我的博客以及更多信息，请订阅我的AI通讯，还可以获得免费礼物，例如成功在YouTube上的秘诀！

观看视频

最近一些超强大的图像生成模型，如DALLE或Midjourney，有什么共同点？除了高计算成本、巨大的训练时间和共享的炒作之外，它们都基于同样的机制：扩散。

扩散模型是大多数图像任务的最新成果，包括DALLE的文本到图像转换，以及其他许多与图像生成相关的任务，如图像修补、风格转移或图像超分辨率。

然后，潜在扩散或众所周知的稳定扩散出现了，改变了图像生成的一切。

但我不是来谈论旧闻的。我们在这里是为了介绍由Stability AI发布的最新论文和模型：稳定视频扩散。这是最新的开源视频生成模型，您可以立即使用！它可以自动生成像这样的酷炫视频，而且甚至可以用来模拟物体的多个视角，仿佛物体在3D中。

我是来自What’s AI的Louis，让我们深入了解这个新模型是如何工作的！

在介绍视频之前，让我们回顾一下稳定扩散在图像方面是如何工作的。

稳定扩散通过在压缩或潜在空间中进行操作，而不是直接处理高分辨率图像，使训练和处理图像更高效、更易于实施。这种方法涉及将输入（可以是文本或图像）编码为较低维度的表示。这基本上意味着教会模型提取最有价值的信息，就像我们在大脑中存储一个概念一样。如果你看到一张猫的图片或看到“猫”这个词，它对你来说都是一样的含义。对于模型的编码也是一样的，所有信息都被放置在一个空间中…