Meta AI推出MusicGen：一种简单且可控的音乐生成模型，可由文本和旋律两种方式进行提示

Meta AI推出MusicGen：一种简单且可控的音乐生成模型，可由文本和旋律两种方式进行提示机器学习第1张

从文本描述中创建音乐作品，例如“带有吉他即兴的90年代摇滚歌曲”，就是文本到音乐。由于它涉及模拟长程过程，因此制作音乐是一项困难的任务。音乐与语音不同，需要利用整个频率范围。这需要更频繁地采样信号；例如，音乐录音通常使用44.1 kHz或48 kHz的采样率，而不是语音的16 kHz。此外，多个乐器的和声和旋律组合形成了音乐中复杂的结构。人类听众对于不协调非常敏感。因此，在创作音乐时几乎没有出错的机会。

最后，对于音乐制作人来说，通过使用各种工具（包括键、乐器、旋律、流派等）控制生成过程至关重要。最近在音频合成、序列建模和自监督音频表示学习方面的发展使得创造这样的模型的框架成为可能。最近的研究建议将音频信号表示为表示同一信号的几个离散令牌流，以使音频建模更易于处理。这既实现了有效的音频建模，又实现了高质量的音频生成。然而，这需要联合建模多个依赖的并行流。

研究人员建议使用延迟方法或在不同流之间添加偏移量来对多个并发语音令牌流进行建模。其他人则建议使用自回归模型层次结构对音乐部分进行建模，并使用多个粒度的离散令牌序列进行显示。与此同时，几位研究人员使用类似的策略生成歌唱伴奏。研究人员建议将此问题分为两个阶段：（i）仅对初始令牌流进行建模，（ii）使用后置网络以非自回归方式联合建模其余流。Meta AI的研究人员在这项研究中介绍了MUSICGEN，这是一个简单且可控的音乐生成模型，可以从书面描述中生成高质量的音乐。

作为先前研究的概括，他们提供了一个通用框架来模拟多个声学令牌流。他们还结合了无监督旋律调节，使模型能够生成符合特定和声和旋律结构的音乐，以增加所创建样本的可控性。他们对MUSICGEN进行了深入的研究，并表明相比于最佳基线的80.5，它的主观评分为84.8。他们还提供了解剖研究，以阐明每个组件对整个模型性能的重要性。

最后，人类评估表明，MUSICGEN生成的样本质量高，更符合特定和声结构的旋律，并遵循书面描述。他们的参与：（i）他们提供了一种简单而有效的方法来以32 kHz生成高质量的音乐。他们演示了MUSICGEN如何使用单阶段语言模型和成功的码本交错技术创建可靠的音乐。（ii）他们提供了一个单一模型来执行文本条件生成和旋律条件生成，并展示生成的音频与文本调节信息一致，并符合给定的曲调。（iii）他们提供了关于其方法基本设计决策的深入评估，既客观又主观。MusicGen的PyTorch代码实现可在GitHub上的AudioCraft库中获得。