“Meta AI开源AudioCraft：一个用于音频生成的PyTorch库，用于深度学习研究”

<img src=”https://www.marktechpost.com/wp-content/uploads/2023/08/362278500_245853288291883_2304974600919081225_n-1024×576.png”/><img src=”https://www.marktechpost.com/wp-content/uploads/2023/08/362278500_245853288291883_2304974600919081225_n-150×150.png”/>为了使研究人员和实践者能够训练他们的模型并推动技术的发展，Meta发布了其文本到音乐生成AI“AudioCraft”的源代码。MusicGen、AudioGen和EnCodec是构成AudioCraft开发框架的三个模型。<ul>
<li>MusicGen可以根据文本用户输入生成音乐，因为它是使用Meta拥有并经过特殊许可的音乐进行训练的。</li>
<li>AudioGen可以从文本输入中创建音频，并在公开的音效中进行训练。</li>
<li>EnCodec是一个三合一的AI驱动的编码器、量化器和解码器。</li>
</ul>AudioGen可以从文本输入中创建音频，并在公开的音效中进行训练。Meta将发布改进版的EnCodec解码器，使音乐生成具有更高的质量和更少的伪影，同时还提供预训练的AudioGen模型，可用于生成环境音和音效，比如狗叫声、汽车喇叭声或者木地板上的脚步声，以及AudioCraft模型的所有权重和代码。对该技术感兴趣的研究人员可以使用这些模型。Meta很高兴首次向研究人员和实践者开放其平台，让他们能够使用自己的数据集来训练模型并为技术的发展做出贡献。经过训练后，它可以根据用户输入的文字产生逼真且高质量的音乐或音效。AudioCraft中包含了MusicGen、AudioGen和EnCodec这三个模型。MusicGen和AudioGen可以根据各自的训练集从文本生成音乐和音效。MusicGen使用Meta拥有的和经许可的音乐，而AudioGen使用公开的音频数据集。Meta在2017年的6月和10月分别发布了两个模型：MusicGen和AudioGen。Meta声称，AudioCraft可以通过直观的界面产生专业级的声音。他们还声称，通过采用一种新的方法，它简化了当前音频生成技术的设计。他们详细介绍了AudioCraft如何使用EnCodec神经音频编解码器从原始音频数据中提取有意义的信息。在此之后，一个自回归语言模型通过利用音乐样本（音频令牌）的预先确定“词汇表”来训练一个新的音频语言模型。这个新模型生成基于文本描述的令牌，并发送回EnCodec解码器，从而实现音频和音乐的合成。Meta演示了AudioGen与传统的AI音乐生成器的独特之处。长期以来，音乐的象征性表示，如MIDI或钢琴卷纸，一直被用于音乐训练以生成AI模型。然而，当记录音乐表达的细微差别和审美成分时，这些方法必须进行修订。更复杂的方法涉及将原始音乐输入系统，并使用自监督音频表示学习和多级（级联模型）模型来生成音乐，以捕捉信号的长距离结构。虽然效果可能需要一些改进，但是可以生成良好的声音。根据负责任的AI原则，Meta的研究人员正在制作AudioGen和MusicGen模型卡片，记录他们开发模型的过程，并提供给研究界以不同规模的版本。音频研究框架和训练代码以MIT许可证的形式对公众开放，以供他人使用和扩展。Meta认为，如果开发出更复杂的控制方式，这样的模型对业余和专业音乐家可能非常有用。想象一下，通过强大的开源基础，可以实现带有音效和戏剧性音乐的增强睡前故事朗读等可能性。