Press "Enter" to skip to content

音频分离:将您描述的任何内容分开

LASS或语言查询音频源分离是用于计算听觉场景分析(CASA)的新范式,旨在使用自然语言查询从给定的音频混合物中分离目标声音,为数字音频任务和应用提供自然且可扩展的接口。尽管过去几年中LASS框架在实现对特定音频源(如乐器)的期望性能方面取得了显着进展,但它们无法在开放域中分离目标音频。

AudioSep是一个基础模型,旨在通过使用自然语言查询实现解决LASS框架当前的限制。AudioSep框架的开发者已经在各种大规模多模态数据集上进行了广泛训练,并在许多音频任务中评估了框架的性能,包括乐器分离、音频事件分离和增强语音等。AudioSep的初始性能符合基准,它展示了令人印象深刻的零样本学习能力,并提供了强大的音频分离性能。

在本文中,我们将深入研究AudioSep框架的工作原理,评估模型的体系结构、用于训练和评估的数据集以及AudioSep模型的关键概念。让我们从对CASA框架的基本介绍开始。

CASA、USS、QSS、LASS框架:AudioSep的基础

CASA或计算听觉场景分析框架是开发人员用来设计机器听觉系统的框架,该系统能够以类似于人类听觉系统的方式感知复杂的声音环境。声音分离,尤其是目标声音分离,是CASA框架内的一个基础研究领域,旨在解决“鸡尾酒会问题”,即将真实世界的音频录音与单独的音频源录音或文件分离开来。声音分离的重要性主要归因于其广泛的应用,包括音乐源分离、音频源分离、语音增强、目标声音识别等等。

过去对声音分离的大部分工作主要围绕分离一个或多个音频源,如音乐分离或语音分离。一种名为USS或Universal Sound Separation的新模型旨在从真实世界的音频录音中分离任意音频。然而,从音频混合物中分离每个音频源是一项具有挑战性和限制性的任务,主要原因是世界上存在各种不同的音频源,这也是为什么USS方法不适用于实时工作的主要原因。

与USS方法相比,QSS或基于查询的声音分离方法是一种可行的替代方案,它旨在基于一组特定的查询从音频混合物中分离出单个或目标音频源。由于QSS框架允许开发人员和用户根据需求从混合物中提取所需的音频源,使得QSS方法成为数字实际应用(如多媒体内容编辑或音频编辑)的更实际的解决方案。

此外,开发人员最近提出了QSS框架的扩展,即LASS框架或基于语言查询的音频源分离框架,它旨在利用目标音频源的自然语言描述来分离音频混合物中的任意声源。由于LASS框架允许用户使用一组自然语言指令提取目标音频源,它可能成为数字音频应用中具有广泛应用的强大工具。与传统的基于音频查询或视觉查询的方法相比,使用自然语言指令进行音频分离具有更大的优势,因为它增加了灵活性,并使查询信息的获取变得更加容易和方便。此外,与使用预定义的指令或查询的标签查询型音频分离框架相比,LASS框架不限制输入查询的数量,并具有无缝扩展到开放域的灵活性。

起初,LASS框架依赖于监督学习,其中模型在一组标记的音频文本配对数据上进行训练。然而,这种方法的主要问题是标记的音频文本数据的可用性有限。为了减少LASS框架对带注释音频文本数据的依赖性,模型使用多模态监督学习方法进行训练。多模态监督学习方法的主要目标是使用多模态对比性预训练模型(如CLIP或对比性语言图像预训练模型)作为框架的查询编码器。由于CLIP框架能够将文本嵌入与音频或视觉等其他模态对齐,它允许开发人员使用数据丰富的模态来训练LASS模型,并以零样本设置对文本数据进行干预。目前的LASS框架在训练时使用小规模数据集,并且尚未探索在数百个潜在领域中应用LASS框架的可能性。

为了解决LASS框架目前面临的限制,开发者引入了AudioSep,这是一个基础模型,旨在使用自然语言描述将声音从音频混合中分离出来。AudioSep目前的重点是开发一个预训练的声音分离模型,利用现有的大规模多模态数据集,使LASS模型在开放领域的应用中实现泛化。总结一下,AudioSep模型是:“一个用于使用大规模音频和多模态数据集上训练的自然语言查询或描述在开放域中进行通用声音分离的基础模型”。

AudioSep:关键组件和架构

AudioSep框架的架构包括两个关键组件:文本编码器和分离模型。

文本编码器

AudioSep框架使用CLIP或对比式语言图像预训练模型或CLAP或对比式语言音频预训练模型的文本编码器,从自然语言查询中提取文本嵌入。输入文本查询由一系列“N”个标记组成,然后由文本编码器处理,提取给定输入语言查询的文本嵌入。文本编码器使用一系列Transformer块对输入文本标记进行编码,经过Transformer层后,输出表示被聚合,得到一个具有固定长度的D维向量表示,其中D对应于CLAP或CLIP模型的维度,文本编码器在训练期间保持冻结。

CLIP模型使用对比学习在大规模图像-文本配对数据集上进行预训练,这是它的文本编码器学习将文本描述映射到语义空间的主要原因,该语义空间也被视觉表示所共享。使用CLIP的文本编码器,AudioSep获得的优势是,它现在可以使用视觉嵌入作为替代方法,从未标记的音频-视觉数据中扩展或训练LASS模型,从而实现对LASS模型的训练,而无需标记或标注的音频-文本数据。

CLAP模型与CLIP模型类似,使用对比学习目标,它使用文本编码器和音频编码器连接音频和语言,从而将文本和音频描述结合在一起形成音频-文本潜在空间。

分离模型

AudioSep框架使用频域ResUNet模型作为框架的分离骨干,输入为一段音频剪辑的混合。该框架首先在波形上应用短时傅里叶变换(STFT),提取出复杂谱图、幅度谱图和相位信息X。然后,该模型按照相同的设置构建编码器-解码器网络来处理幅度谱图。

ResUNet编码器-解码器网络由6个残差块、6个解码器块和4个瓶颈块组成。每个编码器块中的谱图使用4个残余常规块将其自身下采样为瓶颈特征,而解码器块使用4个残余卷积块通过上采样特征来获得分离组件。随后,每个编码器块及其相应的解码器块建立一个跳跃连接,该连接以相同的上采样或下采样速率运行。框架的残余块由2个Leaky-ReLU激活层、2个批归一化层和2个CNN层组成,此外,该框架还引入了一个额外的残差快捷方式,连接着每个单独的残差块的输入和输出。ResUNet模型以复杂谱图X作为输入,将幅度掩蔽M作为输出,相位残差与文本嵌入有条件地控制谱图的缩放和旋转角度。分离的复杂谱图可以通过将预测的幅度掩蔽和相位残差与混合信号的STFT(短时傅里叶变换)相乘来提取。

音频分离:将您描述的任何内容分开 四海 第1张

在AudioSep的框架中,部署了卷积块后,使用FiLm或特征逐通道线性调制层来连接分离模型和文本编码器。

训练和损失

在训练AudioSep模型时,开发者使用声音响度增强方法,并利用L1损失函数在真实和预测波形之间进行端到端的训练。

数据集与基准测试

正如前面所提到的,AudioSep是一个基础模型,旨在解决现有的LASS模型对带注释音频文本配对数据集的依赖。AudioSep模型在广泛的数据集上进行训练,以使其具备多模态学习能力,下面是开发者用于训练AudioSep框架的数据集和基准测试的详细描述。

AudioSet数据集

AudioSet是一个弱标记的大规模音频数据集,包含从YouTube直接提取的超过200万个10秒音频片段。AudioSet数据集中的每个音频片段都根据声音类别的存在或不存在进行分类,但没有特定的声音事件的时间细节。AudioSet数据集包含超过500个不同的音频类别,包括自然声音、人声、车辆声音等等。

VGGSound数据集

VGGSound数据集是一个大规模的视听数据集,与AudioSet一样,它也是直接从YouTube获取的,包含超过20万个视频剪辑,每个剪辑的长度为10秒。VGGSound数据集被分为超过300个声音类别,包括人声、自然声音、鸟类声音等。使用VGGSound数据集可以确保在相应的视觉剪辑中,能够找到产生目标声音的对象。

AudioCaps数据集

AudioCaps是目前公开可用的最大的音频字幕数据集,包含超过5万个10秒音频片段,这些片段从AudioSet数据集中提取。AudioCaps的数据分为训练数据、测试数据和验证数据三类,并且使用亚马逊的Mechanical Turk平台对音频片段进行了人工注释,以自然语言描述方式进行描述。值得注意的是,训练数据集中的每个音频片段只有一个字幕,而测试和验证集中的数据每个有5个真实字幕。

ClothoV2数据集

ClothoV2是一个音频字幕数据集,其中的剪辑来自FreeSound平台,与AudioCaps类似,每个音频剪辑都使用亚马逊的Mechanical Turk平台进行了人工注释,以自然语言描述方式进行描述。

WavCaps数据集

与AudioSet类似,WavCaps是一个弱标记的大规模音频数据集,包含超过40万个带有字幕的音频片段,总运行时间约为7568小时的训练数据。WavCaps数据集的音频剪辑来自包括BBC Sound Effects、AudioSet、FreeSound、SoundBible等在内的各种音频来源。

音频分离:将您描述的任何内容分开 四海 第2张

训练细节

在训练阶段,AudioSep模型随机从训练数据集中抽取两个不同音频剪辑的音频片段,然后将它们混合在一起,创建一个训练混合物,每个音频片段的长度约为5秒。然后,模型使用Hann窗口大小为1024,跳跃大小为320,从波形信号中提取复杂频谱图。

接下来,模型使用CLIP/CLAP模型的文本编码器提取文本嵌入向量,其中文本理解是AudioSep的默认配置。对于分离模型,AudioSep框架使用一个由30层、6个编码器块和6个解码器块组成的ResUNet层,类似于通用音频分离框架的架构。此外,每个编码器块包含两个具有3×3卷积核大小的卷积层,编码器块的输出特征图数依次为32、64、128、256、512和1024。解码器块与编码器块对称,并且开发者使用Adam优化器训练AudioSep模型,批量大小为96。

评估结果

在已知数据集上的结果

以下图表比较了训练阶段中AudioSep框架在已知数据集上的性能,包括训练数据集。下图显示了AudioSep框架在与基准系统(包括语音增强模型、LASS和CLIP)对比时的基准评估结果。使用CLIP文本编码器的AudioSep模型表示为AudioSep-CLIP,而使用CLAP文本编码器的AudioSep模型表示为AudioSep-CLAP。

音频分离:将您描述的任何内容分开 四海 第3张

如图所示,AudioSep框架在使用音频字幕或文本标签作为输入查询时表现良好,结果显示与之前的基准LASS和基于音频查询的声音分离模型相比,AudioSep框架的性能优越。

在未见数据集上

为了评估在无监督设置中的AudioSep性能,开发人员继续在未见数据集上评估其性能,结果显示在无监督设置中,AudioSep框架具有令人印象深刻的分离性能,如图所示。

音频分离:将您描述的任何内容分开 四海 第4张

此外,下图显示了评估AudioSep模型与Voicebank-Demand语音增强的结果。

音频分离:将您描述的任何内容分开 四海 第5张

对于未见数据集在无监督设置中的评估表明,AudioSep框架具有强大且理想的性能,因此可以在新的数据分布上执行声音操作任务。

分离结果的可视化

下图显示了开发人员使用AudioSep-CLAP框架对地面真实目标音频源、音频混合物和使用文本查询的分离音频源进行频谱可视化的结果。结果显示分离后的频谱模式与地面真实音频源非常接近,这进一步支持了实验期间获得的客观结果。

音频分离:将您描述的任何内容分开 四海 第6张

文本查询的比较

开发人员在AudioCaps Mini上评估了AudioSep-CLAP和AudioSep-CLIP的性能,并利用了AudioSet事件标签、AudioCaps字幕和重新注释的自然语言描述来检查不同查询的效果,下图显示了AudioCaps Mini的示例。

音频分离:将您描述的任何内容分开 四海 第7张

结论

AudioSep是一个基础模型,旨在成为一个使用自然语言描述进行音频分离的通用开放领域音频分离框架。从评估结果可见,AudioSep框架能够通过使用音频字幕或文本标签作为查询无缝地执行零样本和无监督学习。AudioSep的结果与评估性能表明其具有强大的性能,优于当前最先进的声音分离框架LASS,并且可能足够解决流行声音分离框架的当前限制。

Leave a Reply

Your email address will not be published. Required fields are marked *