Press "Enter" to skip to content

“一个AI模型可以掌握所有音频任务吗?认识UniAudio:一个新的通用音频生成系统

生成式人工智能的一个关键方面是音频生成。近年来,生成式人工智能的普及导致音频制作方面的需求日益多样化和新兴。例如,文本转语音和文本转音乐技术被预计用于基于人类请求的音频生成,包括语音合成(TTS)、声音转换(VC)、歌声合成(SVS)和语音转换(VC)。早期关于音频生成工作的努力主要依赖于领域专业知识的任务专用设计,并且仅适用于固定配置。本研究旨在创建通用音频生成,该生成能够通过单一统一模型处理多种音频生成任务,而不是逐个处理每个任务。

预计通用音频生成模型可以积累音频和相关模式的充分历史知识,从而为创建各种音频的不断增长需求提供简单高效的解决方案。大型语言模型(LLM)技术在生成文本工作中的卓越表现启发了许多基于LLM的音频生成模型。在这些研究中,LLM在文本转语音(TTS)和音乐制作等任务中的独立性得到了大量的研究,并取得了竞争性的表现。然而,LLM处理多种任务的潜力需要在音频生成研究中更多地得到利用,因为大多数基于LLM的作品仍然专注于单个任务。

他们认为LLM范式具有达到音频创作的通用性和多样性的潜力,但尚未深入研究。在本研究中,香港中文大学、卡内基梅隆大学、微软亚洲研究院和浙江大学的研究人员介绍了UniAudio,它使用LLM方法根据多种输入模态(包括音素序列、文本描述和音频本身)生成各种音频类型(语音、噪音、音乐和歌唱)。计划的UniAudio的主要特点如下:所有音频格式和输入模态首先被标记为离散序列。为了成功标记音频,无论音频格式如何,开发了通用神经编解码器模型,并使用多个标记器标记各种输入模态。

https://arxiv.org/abs/2310.00704

然后,UniAudio将源目标对组合为单个序列。最后,UniAudio使用LLM进行下一个标记的预测。标记化技术使用基于神经编解码器的残差矢量量化,生成过长的标记序列(一个帧等于几个标记),LLM无法有效解析。多尺度Transformer架构独立建模帧间和帧内关联,旨在降低计算复杂性。特别是,全局Transformer模块表示帧之间的关联(例如,语义层面),而局部Transformer模块则表示帧内的关联(例如,声音水平)。UniAudio的构建经过两个步骤以展示其可扩展性。

首先,所提出的UniAudio同时训练多种音频生成任务,这使得模型具备了音频的固有特性和音频与其他输入模态之间的关系的充分先前知识。其次,仅需进行少量调整,训练好的模型将能够适应更多的音频生成任务。由于能够不断适应音频生成中不断出现的需求,UniAudio有望成为通用音频生成的基础模型。他们的UniAudio在实验中支持11个音频生成任务:训练阶段涵盖了七个音频生成任务,微调阶段添加了四个任务。为了适应165,000小时的音频和10亿个参数,UniAudio的构建方法已经得到提升。

UniAudio在整个11个任务中始终以客观和主观标准判断为基准,取得了竞争性的表现。对于大多数任务,都能达到当代的结果。更多研究表明,在训练阶段同时实践多个任务对所有包含的任务都有益处。此外,UniAudio优于任务特定模型,并能够快速适应新的音频生成工作负载。总之,他们的研究表明发展通用音频生成模型是重要、有希望且有益的。

以下是本研究的主要贡献的摘要:

(1) 为实现通用音频生成,UniAudio作为单一解决方案提供了11个音频生成任务,超过了领域中所有先前的努力。

(2)关于技术方面,UniAudio为(i)音频和其他输入模态的连续表示提供新的思路,提供了(ii)基于LLM的音频生成任务的一致表述,并创建了(iii)专门用于音频生成的有效模型架构。

(3)广泛的测试结果验证了UniAudio的整体性能,并展示了创建灵活的音频生成范式的优势。

(4)UniAudio的演示和源代码已公开,在未来的研究中,希望它能作为一个基础模型帮助涌现的音频制作。

Leave a Reply

Your email address will not be published. Required fields are marked *