介绍

最近出现的大型语言模型引起了轰动。现在，想象力是极限。今天，WavJourney可以自动化讲故事的艺术。只需提供一个简单的提示，WavJourney就利用LLM的强大力量生成引人入胜的音频脚本，包括准确的故事情节、逼真的人声和引人入胜的背景音乐。

为了正确地观看音频生成的能力，请考虑以下场景。我们只需要提供一个简单的指令，描述一个场景和情景设置，模型就会生成一个扣人心弦的音频脚本，突出了与原始指令的最高上下文相关性。

指令：生成科幻主题的音频：火星新闻报道人类向半人马座发送了一艘光速探测器。首先是新闻主播，然后是记者采访这个探测器的首席工程师，该探测器由联合地球和火星政府创办，最后再次出现新闻主播。

生成的音频：https://audio-agi.github.io/WavJourney_demopage/sci-fi/sci-fi%20news.mp4

为了真正理解这个奇迹的内部运作，让我们深入研究生成过程的方法和实施细节。

生成过程

下图总结了完整的过程，形成了一个简单的流程图。

WavJourney：探索音频故事线生成的世界四海第1张

端到端的音频生成过程由多个子模块组成，按顺序执行以完成文本到音频模型。

音频脚本生成

WavJourney利用GPT-4模型和预定义的提示模板生成脚本。提示模板将输出限制为简单的JSON格式，后续可以轻松地由计算机程序解析。如上图所示，每个脚本都有3种不同的音频类型：语音、音效和音乐。然后，每种音频类型可以作为前景音频运行，或作为背景音效叠加在其他音频上。其他属性，如内容描述、长度和角色，足以正式定义脚本生成的音频设置。

脚本解析

然后，输出脚本通过一个计算机程序进行解析，从预定义的JSON脚本格式中提取相关信息。它将每个描述和角色与预设的语音音频关联起来。这个过程有助于将音频生成过程分解为独立的步骤，包括文本到语音、音乐和音效的添加。

音频生成

解析后的脚本作为Python程序执行。首先生成前景语音，然后叠加背景音乐和音效。对于语音生成，模型使用预训练的Bark模型和VoiceFixer恢复模型来改善音频质量。音效和音乐叠加使用了AudioLDM和MusicGen模型。三个模型的输出被合并为最终的音频输出。

人机协同创作

该过程保持了生成的脚本的上下文，并且可以像GPT模型一样进行提示。您可以使用人类反馈和GPT模型的聊天功能轻松修改生成的脚本。

添加特定的细节和音效比以往更容易。下面的流程图显示了添加或修改生成的脚本的特定细节有多简单。

WavJourney：探索音频故事线生成的世界四海第2张

结论

音频生成模型可以成为娱乐行业的改变者。该过程能够生成引人入胜的叙事和故事，可用于教育和娱乐目的，自动化繁琐的配音和视频生成过程。

有关详细信息，请在此处概述论文。代码将很快在GitHub上提供。Muhammad Arham是一位在计算机视觉和自然语言处理领域工作的深度学习工程师。他曾参与过多个生成型AI应用的部署和优化，这些应用在Vyro.AI的全球排行榜上名列前茅。他对构建和优化智能系统的机器学习模型很感兴趣，并且坚信不断改进。