AI音乐源分离：它是如何工作的，为什么这么难

源分离人工智能，解释

源分离

什么是源分离？

在信号处理领域，源分离描述了将音频信号分解为多个源音频信号的任务。这个概念不仅适用于音乐，还适用于语音或机器声音。例如，您可能希望将播客中两个演讲者的声音分开，以便可以单独编辑声音。

为什么源分离如此困难？

并不是每个人都是音乐家。甚至很少有人既是音乐家又对数据和人工智能感兴趣。通常情况下，当我与非音乐家交谈时，我有一种感觉，他们认为你可以简单地“将声音从音频中移除”。这是有道理的，因为为什么唱片的B面会有纯音乐，或者为什么每个酒吧都有数千首流行歌曲的卡拉OK版本呢？实际上，将声乐与器乐分离是非常简单的——只要您可以访问混音的各个音轨…

然而，在现实世界中，我们所拥有的只是波形。波形是我们对真实物理音频事件的最接近的计算机表示。波形也是将数字音频转换回真实声音的前提条件，例如通过扬声器。这意味着，如果您想将一首音乐分离为两个音源（声乐和器乐），您需要找到一种方法将合并的波形分割为两个独立且准确捕捉各自声源的波形。

为了强调这一点，您可以在下面的图中找到三个波形。第一个代表吉他，第二个捕捉吉他曲目上的声乐。第三个波形是吉他和声乐的组合，即完整的歌曲。

Waveforms of a guitar and vocals. Image by author. — 吉他和声乐的波形。图像由作者提供。

对我来说，作为这首曲目的制作人，向您提供声乐和器乐是一项微不足道的任务，因为我可以简单地将原始录音发送给您。然而，作为音乐的消费者…