Press "Enter" to skip to content

认识 MeLoDy:一种高效的文本到音频扩散模型,用于音乐合成

认识 MeLoDy:一种高效的文本到音频扩散模型,用于音乐合成 机器学习 第1张认识 MeLoDy:一种高效的文本到音频扩散模型,用于音乐合成 机器学习 第2张

音乐是由和谐、旋律和节奏组成的艺术,渗透到人类生活的各个方面。随着深度生成模型的蓬勃发展,音乐生成近年来受到了广泛关注。作为一类重要的生成模型,语言模型(LMs)在建模复杂的长期上下文关系方面表现出了非凡的建模能力。基于此,AudioLM和许多后续工作成功地将LMs应用于音频合成。与基于LM的方法相似,扩散概率模型(DPMs)作为另一类竞争性的生成模型,也表现出了合成语音、声音和音乐的卓越能力。

然而,从自由形式文本生成音乐仍然具有挑战性,因为允许的音乐描述可以是多种多样的,与流派、乐器、节奏、情境,甚至一些主观感受有关。

传统的文本到音乐生成模型通常关注于特定的属性,如音频延续或快速采样,而有些模型则优先考虑稳健的测试,这有时是由领域内的专家(例如音乐制作人)进行的。此外,大多数模型都是在大规模的音乐数据集上训练的,并且展示了最新的生成性能,具有高保真度和对文本提示各种方面的忠实度。

然而,这些方法的成功,如MusicLM或Noise2Music,带来了高计算成本,这将严重妨碍它们的实用性。相比之下,基于DPMs构建的其他方法使高质量音乐的有效采样成为可能。然而,他们所展示的案例相对较小,并且显示了有限的内部动态。为了实现可行的音乐创作工具,生成模型的高效性至关重要,因为它有助于与人类反馈进行交互式创作,正如先前的研究所述。

尽管LMs和DPMs都显示出了很好的结果,但相关问题并不是是否应该优先选择其中一种,而是是否可能同时利用两种方法的优势。

根据上述动机,提出了一种称为MeLoDy的方法。该策略的概述如下图所示。

认识 MeLoDy:一种高效的文本到音频扩散模型,用于音乐合成 机器学习 第3张

在分析MusicLM的成功后,作者利用MusicLM中最高级别的LM,称为语义LM,来模拟音乐的语义结构,确定旋律、节奏、动态、音色和节奏的整体安排。在这种语义LM的条件下,他们利用DPMs的非自回归性质,借助成功的采样加速技术,高效有效地模拟声学。

此外,作者提出了所谓的双通道扩散(DPD)模型,而不是采用经典的扩散过程。事实上,对原始数据进行处理会指数增加计算费用。提出的解决方案是将原始数据降低到低维潜在表示。减少数据的维数会减少对操作的影响,从而减少模型运行时间。随后,原始数据可以通过预先训练的自编码器从潜在表示中重构出来。

模型产生的一些输出样本可在以下链接中获得:https://efficient-melody.github.io/。目前该代码尚未发布,这意味着目前无法在线或本地尝试它。

这就是MeLoDy的概述,这是一种生成最先进音质的高效LM引导扩散模型。如果您有兴趣,可以在下面的链接中了解更多关于这种技术的信息。

Leave a Reply

Your email address will not be published. Required fields are marked *