在一系列前所未有的事件中,一种名为Zeroscope的下一代开源AI模型已经在市场上推出,具备在现代图形卡上运行最先进的文本到视频服务的能力,并且以相对较低的成本提供给用户。中国的Modelscope旗下的Zeroscope旨在通过解锁新的AI用例,彻底改变媒体和视频创作领域。
了解Zeroscope的功能组成对于理解它如何通过文本革新视频生成领域非常重要。这个开源模型的独特之处在于它的两个关键组件,Zeroscope V2和Zeroscope V2XL;Zeroscope_v2 567w,用于以576×320像素的分辨率快速创建内容以探索视频概念。然后可以使用zeroscope_v2_XL将高质量视频升级到“高清”分辨率1024×576,因此用户可以使用ZeroScope V2快速创建视频,然后使用V2XL进行升级。
除此之外,由于多级模型的17亿个参数,Zeroscope的要求令人惊讶地易于管理。Zeroscope在较低分辨率下的VRAM需求为7.9千兆字节,而在较高分辨率下为15.3千兆字节。较小的模型可以在许多标准图形卡上执行,使其可供更广泛和更一般的用户使用。
Zeroscope通过对近10,000个剪辑和近30,000个帧进行偏移噪声的战略训练。这种非传统的行为组合为Zeroscope开启了新的机遇和可能性。通过引入随机物体移动、帧时序的微小变化和轻微扭曲等变化,模型改善了对数据分布的理解,从而帮助模型以多样化的尺度生成更真实的视频,并有效地解释文本描述中微妙的变化。凭借所有这些功能,Zerscope迅速成为商业文本到视频模型提供商Runway的有力竞争对手。
文本到视频作为一项工作仍在进展中,生成的视频片段往往较短且存在一些视觉缺陷。然而,如果我们看一下图像AI模型的发展历程,它们在达到照片逼真质量之前也面临了类似的挑战。主要挑战是视频生成在训练和生成阶段都需要更多的资源。
Zeroscope作为一种强大的文本到视频模型的出现为许多新的数字进展和用例铺平了道路,例如:
- 个性化游戏、虚拟现实和元宇宙:Zeroscope的转换能力可以重新定义视频游戏中的故事叙述。玩家可以通过他们的话语实时影响剪辑和游戏玩法,实现难以想象的互动和个性化。此外,游戏开发者可以快速原型和可视化游戏场景,加快开发速度。
- 个性化电影:Zeroscope的技术通过基于用户描述生成个性化内容来颠覆媒体行业。用户可以输入情节或场景描述,并根据其回应创建个性化视频。此功能可以实现观众的积极参与,并为定制内容创作开辟了新的途径,例如个性化视频广告或用户定制的电影场景。
- 合成创作者:Zeroscope为依靠AI将其想法编写、制作和编辑成现实的新一代创作者铺平了道路。它消除了视频创作中的技术技能障碍,并有可能为自动化、高质量的视频内容建立新的标准。人类和AI创作者之间的界限变得模糊,拓宽了创造力的领域。
Zeroscope旨在成为一种轻量级的突破性模型,可以轻松进行微调,并且不需要特殊的资源设置,使其不仅成为多个普通用户可以使用的工具,而且许多缺乏大型实验室资源的新兴研究人员现在可以使用此类算法来更好地理解它们并以合理的成本推进整个领域的发展。看到激烈竞争将激励Zeroscope的创作者创新并占据强劲的市场地位将是令人惊叹的。