稳定AI引入稳定音频：一种新的人工智能模型，可以根据文本提示生成音频片段

稳定AI引入稳定音频：一种新的人工智能模型，可以根据文本提示生成音频片段四海第1张

Stability AI推出了一项突破性技术——稳定音频（Stable Audio），这标志着音频生成迈出了重要的一步。这项创新解决了从简单文本提示中创建自定义音频片段的挑战。虽然Stability AI以其文本到图像生成技术——稳定扩散（Stable Diffusion）而闻名，但现在它已经将自己的专业知识扩展到了音乐和音频领域。这一发展是在他们成功进军图像合成领域——通过引入Stable Diffusion的SDXL基础模型之后。

到目前为止，通过“符号生成”技术生成基本音频轨道是可能的，通常涉及MIDI文件。然而，稳定音频通过使用户能够创作全新的音乐作品而超越了这一点，摆脱了通常与MIDI和符号生成相关的重复音符的限制。这一成就归功于该模型与原始音频样本的直接交互，从而产生出更优质的输出。该模型的训练涵盖了来自AudioSparks库的80万多首经过许可的音乐作品，这为其出色的性能做出了贡献。这个丰富的数据集确保了高质量的音频，并提供了全面的元数据，这是基于文本的模型的一个关键因素。

与可以模仿特定艺术家风格的图像生成模型不同，稳定音频并不试图模仿像披头士乐队这样的标志性乐队。这个有意的选择源于对音乐家追求在没有严格风格限制的情况下踏上自己的创作之旅的理解。相反，稳定音频赋予用户探索他们独特音乐表达的能力。

稳定音频模型是一个拥有大约12亿参数的扩散模型，与图像生成的原始稳定扩散模型相媲美。为了生成音频，文本提示是稳定AI使用对比语言音频预训练（CLAP）技术精心制作和训练的。为了帮助用户制作有效的提示，Stability AI将与稳定音频发布同时发布一个提示指南。

稳定音频将通过免费版本和每月12美元的专业计划提供。免费版本每月可生成最多20个音频片段，每个片段长达20秒。相比之下，专业版本提高了这些限制，使用户可以生成500个片段，并将音轨时长延长到90秒。

总之，Stability AI发布的稳定音频标志着音频生成技术的新时代。该公司通过利用先进的AI技术，为将文本提示转化为原创音频片段提供了一个无缝的平台。这一创新拓展了创作表达的视野，并展示了AI驱动的音乐和音频制作解决方案的潜力。稳定音频以其可接受的价格层次，将成为有抱负和专业音频创作者的宝贵工具。