Facebook的母公司Meta发布了一款新的生成式AI工具,可以从基于文本的提示中创建声音。在一篇帖子中,该公司以一个思想实验开篇。“想象一下,一位专业音乐家可以在不用在乐器上演奏一音的情况下探索新的作曲。”。
这些话来自于该公司,他们声称这款新的AI工具可以生成高质量、逼真的音频和音乐。更有趣的是,这正值对生成式AI内容更加严格审查的时期。
根据这篇帖子,这款名为AudioCraft的新AI工具由三个模型组成。MusicGen、AudioGen和EnCodec。第一个模型MusicGen是使用Meta自己的和经过授权的音乐进行训练的,可以从文本提示中生成音乐。
第二个模型AudioGen是使用公共音效进行训练的,可以从文本提示中生成音频。可以创建环境音或其他声音效果,如狗叫声、汽车喇叭声、脚步声、特定类型的地板声等。
这两个模型的区别似乎在于音乐创作和声音效果,后者更为专注。然后,还有一个模型叫做Encodec。据该公司称,该模型可以生成更高质量、更少伪影的音乐。
这三个模型都已开源,公司正在向研究人员和从业者提供访问权限,以便他们可以使用自己的数据集进行训练。考虑到AI生成的音乐和声音领域仍处于起步阶段,这样的结果可能非常有趣。
目前,这些模型并不是任何人只需写入提示就希望能够创建出美妙音乐的。根据Meta的说法,由于模型的复杂性,它们仍需要更多的工作。但团队承诺,AudioCraft系列模型能够产生高质量的音频。
该公司希望AudioCraft系列模型能够被视为帮助音乐家和声音设计师探索他们的工艺的新工具。这个希望也延伸到激发他们的工作。如果证明成功并受欢迎,这应该就是DJ David Guetta所看到的将AI作为音乐未来关键部分的未来。