Press "Enter" to skip to content

“Meta AI开源AudioCraft:一个用于音频生成的PyTorch库,用于深度学习研究”

<img src=”https://www.marktechpost.com/wp-content/uploads/2023/08/362278500_245853288291883_2304974600919081225_n-1024×576.png”/><img src=”https://www.marktechpost.com/wp-content/uploads/2023/08/362278500_245853288291883_2304974600919081225_n-150×150.png”/><p>为了使研究人员和实践者能够训练他们的模型并推动技术的发展,Meta发布了其文本到音乐生成AI“AudioCraft”的源代码。MusicGen、AudioGen和EnCodec是构成AudioCraft开发框架的三个模型。</p><ul>
<li>MusicGen可以根据文本用户输入生成音乐,因为它是使用Meta拥有并经过特殊许可的音乐进行训练的。</li>
<li>AudioGen可以从文本输入中创建音频,并在公开的音效中进行训练。</li>
<li>EnCodec是一个三合一的AI驱动的编码器、量化器和解码器。</li>
</ul><p>AudioGen可以从文本输入中创建音频,并在公开的音效中进行训练。Meta将发布改进版的EnCodec解码器,使音乐生成具有更高的质量和更少的伪影,同时还提供预训练的AudioGen模型,可用于生成环境音和音效,比如狗叫声、汽车喇叭声或者木地板上的脚步声,以及AudioCraft模型的所有权重和代码。对该技术感兴趣的研究人员可以使用这些模型。Meta很高兴首次向研究人员和实践者开放其平台,让他们能够使用自己的数据集来训练模型并为技术的发展做出贡献。</p><p>经过训练后,它可以根据用户输入的文字产生逼真且高质量的音乐或音效。AudioCraft中包含了MusicGen、AudioGen和EnCodec这三个模型。MusicGen和AudioGen可以根据各自的训练集从文本生成音乐和音效。MusicGen使用Meta拥有的和经许可的音乐,而AudioGen使用公开的音频数据集。Meta在2017年的6月和10月分别发布了两个模型:MusicGen和AudioGen。</p><p>Meta声称,AudioCraft可以通过直观的界面产生专业级的声音。他们还声称,通过采用一种新的方法,它简化了当前音频生成技术的设计。他们详细介绍了AudioCraft如何使用EnCodec神经音频编解码器从原始音频数据中提取有意义的信息。在此之后,一个自回归语言模型通过利用音乐样本(音频令牌)的预先确定“词汇表”来训练一个新的音频语言模型。这个新模型生成基于文本描述的令牌,并发送回EnCodec解码器,从而实现音频和音乐的合成。</p><p>Meta演示了AudioGen与传统的AI音乐生成器的独特之处。长期以来,音乐的象征性表示,如MIDI或钢琴卷纸,一直被用于音乐训练以生成AI模型。然而,当记录音乐表达的细微差别和审美成分时,这些方法必须进行修订。更复杂的方法涉及将原始音乐输入系统,并使用自监督音频表示学习和多级(级联模型)模型来生成音乐,以捕捉信号的长距离结构。虽然效果可能需要一些改进,但是可以生成良好的声音。</p><p>根据负责任的AI原则,Meta的研究人员正在制作AudioGen和MusicGen模型卡片,记录他们开发模型的过程,并提供给研究界以不同规模的版本。音频研究框架和训练代码以MIT许可证的形式对公众开放,以供他人使用和扩展。Meta认为,如果开发出更复杂的控制方式,这样的模型对业余和专业音乐家可能非常有用。想象一下,通过强大的开源基础,可以实现带有音效和戏剧性音乐的增强睡前故事朗读等可能性。</p>

Leave a Reply

Your email address will not be published. Required fields are marked *