“遇见Animate-A-Story：一种以检索增强视频生成为基础的讲故事方法，能够合成高质量、有结构、以角色驱动的视频”

“遇见Animate-A-Story：一种以检索增强视频生成为基础的讲故事方法，能够合成高质量、有结构、以角色驱动的视频” 四海第1张

文本到图像模型最近引起了很多关注。随着生成式人工智能的引入，像GPT和DALL-E这样的模型自发布以来一直都是头条新闻。它们的流行之所以如此之高是因为像人类一样生成内容不再是一个梦想。不仅文本到图像模型，现在还可以实现文本到视频（T2V）的生成。拍摄真人或制作计算机生成的动画通常需要进行有趣的故事视频的制作，这是一个困难且耗时的过程。

尽管最新的文本到视频生成技术展示了从基于文本描述的自动生成视频的潜力，但仍存在一定的限制。对于可视化引人入胜的故事和制作电影体验至关重要的视频设计和布局的控制不足是一个主要挑战。特写镜头，远景和构图等其他电影制作技术对于观众理解潜在信息至关重要。目前，现有的文本到视频方法很难提供符合电影标准的适当动作和布局。

为了解决这些限制，一组研究人员提出了一种独特的视频生成方法，即检索增强的视频生成方法，称为Animate-A-Story。该方法通过使用来自外部数据库的电影作为T2V创作过程的指导信号，根据文本提示获取与请求场景或动作背景相匹配的电影，以利用现有的丰富视频内容。用户在动画故事时可以更好地控制生成视频的布局和构图，使用检索到的视频作为结构参考。

该框架由两个模块组成：运动结构检索和结构引导的文本到视频合成。运动结构检索模块提供与查询文本所指示的场景或动作上下文相匹配的视频候选项。为此，使用商业视频检索系统提取视频深度作为运动结构。第二个模块，结构引导的文本到视频合成，使用文本提示和运动结构作为输入来生成遵循故事情节的电影。已经创建了一个用于定制化视频制作的模型，使得对视频的情节和角色有灵活的控制。通过遵循结构指导和视觉准则，所创建的视频符合预期的叙事要素。

这种方法非常注重保持镜头之间的视觉连贯性。该团队还开发了一种成功的概念个性化策略来确保这一点。通过文本提示，该方法使观众可以选择喜欢的角色身份，从而保持整个视频中角色外观的一致性。为了评估，该团队将该方法与现有基准进行了比较。结果显示了这种方法的显著优势，证明了它能够生成高质量、连贯且视觉吸引人的叙事视频。

该团队总结了以下贡献：

引入了一种检索增强的叙事视频合成范式，首次允许使用各种现有视频进行叙事。

通过实验结果支撑了该框架的实用性，将其确定为一种非常用户友好的创作视频的尖端工具。

提出了一种灵活的结构引导的文本到视频方法，成功地解决了角色制作和结构引导之间的紧张关系。

该团队还引入了TimeInv，这是一种与当前竞争对手相比有显著优势的个性化方法概念。