Press "Enter" to skip to content

WavJourney:探索音频故事线生成的世界

 

介绍

 

最近出现的大型语言模型引起了轰动。现在,想象力是极限。今天,WavJourney可以自动化讲故事的艺术。只需提供一个简单的提示,WavJourney就利用LLM的强大力量生成引人入胜的音频脚本,包括准确的故事情节、逼真的人声和引人入胜的背景音乐。

为了正确地观看音频生成的能力,请考虑以下场景。我们只需要提供一个简单的指令,描述一个场景和情景设置,模型就会生成一个扣人心弦的音频脚本,突出了与原始指令的最高上下文相关性。

指令:生成科幻主题的音频:火星新闻报道人类向半人马座发送了一艘光速探测器。首先是新闻主播,然后是记者采访这个探测器的首席工程师,该探测器由联合地球和火星政府创办,最后再次出现新闻主播。

生成的音频:https://audio-agi.github.io/WavJourney_demopage/sci-fi/sci-fi%20news.mp4

为了真正理解这个奇迹的内部运作,让我们深入研究生成过程的方法和实施细节。

 

生成过程

 

下图总结了完整的过程,形成了一个简单的流程图。

  WavJourney:探索音频故事线生成的世界 四海 第1张  

端到端的音频生成过程由多个子模块组成,按顺序执行以完成文本到音频模型。

 

音频脚本生成

 

WavJourney利用GPT-4模型和预定义的提示模板生成脚本。提示模板将输出限制为简单的JSON格式,后续可以轻松地由计算机程序解析。如上图所示,每个脚本都有3种不同的音频类型:语音音效音乐。然后,每种音频类型可以作为前景音频运行,或作为背景音效叠加在其他音频上。其他属性,如内容描述、长度和角色,足以正式定义脚本生成的音频设置。

 

脚本解析

 

然后,输出脚本通过一个计算机程序进行解析,从预定义的JSON脚本格式中提取相关信息。它将每个描述和角色与预设的语音音频关联起来。这个过程有助于将音频生成过程分解为独立的步骤,包括文本到语音、音乐和音效的添加。

 

音频生成

 

解析后的脚本作为Python程序执行。首先生成前景语音,然后叠加背景音乐和音效。对于语音生成,模型使用预训练的Bark模型和VoiceFixer恢复模型来改善音频质量。音效和音乐叠加使用了AudioLDM和MusicGen模型。三个模型的输出被合并为最终的音频输出。

 

人机协同创作

 

该过程保持了生成的脚本的上下文,并且可以像GPT模型一样进行提示。您可以使用人类反馈和GPT模型的聊天功能轻松修改生成的脚本。

添加特定的细节和音效比以往更容易。下面的流程图显示了添加或修改生成的脚本的特定细节有多简单。

  WavJourney:探索音频故事线生成的世界 四海 第2张

 

结论

 

音频生成模型可以成为娱乐行业的改变者。该过程能够生成引人入胜的叙事和故事,可用于教育和娱乐目的,自动化繁琐的配音和视频生成过程。

有关详细信息,请在此处概述论文。代码将很快在GitHub上提供。Muhammad Arham是一位在计算机视觉和自然语言处理领域工作的深度学习工程师。他曾参与过多个生成型AI应用的部署和优化,这些应用在Vyro.AI的全球排行榜上名列前茅。他对构建和优化智能系统的机器学习模型很感兴趣,并且坚信不断改进。

Leave a Reply

Your email address will not be published. Required fields are marked *