Press "Enter" to skip to content

认识VampNet:一种用于音乐合成、压缩、修补和变异的掩码声学令牌建模方法

认识VampNet:一种用于音乐合成、压缩、修补和变异的掩码声学令牌建模方法 四海 第1张认识VampNet:一种用于音乐合成、压缩、修补和变异的掩码声学令牌建模方法 四海 第2张

由于离散声学令牌建模的进展,自动回归语音和音乐的生成方面取得了显著进展。为了有效地进行图片生成,研究人员提出了非自回归并行迭代解码方法。与自回归方法相比,需要在过去和未来的序列组成部分上进行条件处理的填充工作更适合于并行迭代解码。在本研究中,他们利用声学令牌建模和同时迭代解码来进行音乐音频合成。据他们所知,这是首次将并行迭代解码应用于神经音频音乐合成。

他们使用基于令牌的提示来调整他们的模型,称为VampNet,以适应各种应用。通过故意隐藏的音乐令牌序列,他们展示了指导VampNet生成并填充空白的能力。这个过程的结果可以是高质量的音频压缩方法,也可以是与原始输入音乐在风格、流派、节奏和乐器方面非常相似,但在音色和节奏方面有一些细微差别的变体。与自回归音乐模型不同,他们的方法允许提示放置在任何位置,后者只能通过使用一些前缀音频作为提示,并由模型产生可能跟随其后的音乐。

认识VampNet:一种用于音乐合成、压缩、修补和变异的掩码声学令牌建模方法 四海 第3张
图1:VampNet概述。首先,他们使用音频令牌化器将音频分解为一系列不同的令牌。令牌首先被屏蔽,然后被发送到一个屏蔽生成模型,该模型使用有效的迭代并行解码采样技术,在两个级别上为屏蔽令牌预测值。然后将输出解码为音频。

他们研究了各种提示设计,如周期性、压缩和受音乐启发的设计(如节拍掩蔽)。他们发现,当指示其创建循环和变化时,他们的模型表现出色,因此被命名为VampNet。他们提供了可以下载的代码,并强烈建议人们查看他们的音频样本。Descript Inc.和Northwestern University的研究人员介绍了一种使用屏蔽声学令牌建模生成音乐的方法,输入音频文件可以通过各种方式提示VampNet,因为它是双向的。VampNet是一个很好的工具,可以在音乐压缩和通过各种提示方法进行音乐生成之间连续运行。

音乐家可以使用VampNet录制一个简短的循环,将其输入系统,每次重复循环区域时,VampNet都会提供创意上的音乐变体。他们打算在进一步的工作中研究VampNet及其提示方法在交互式音乐共创方面的潜力,以及屏蔽声学令牌建模的表示学习能力。

Leave a Reply

Your email address will not be published. Required fields are marked *