微软研究员推出SpeechX：一种多功能语音生成模型，能够进行零样本TTS和各种语音转换任务

微软研究员推出SpeechX：一种多功能语音生成模型，能够进行零样本TTS和各种语音转换任务四海第1张

多种机器学习应用，包括文本、视觉和音频，在生成模型技术方面已经取得了快速且显著的发展。这些发展对行业和社会产生了重要影响。尤其是具有多模态输入的生成模型已成为真正的创新发展。零样本文本到语音（TTS）是语音领域中一个众所周知的语音生成问题，它使用音频文本输入。只使用预期说话者的一个小音频片段，零样本TTS可以将文本源转化为具有该说话者声音特质和说话方式的语音。早期零样本TTS的研究中使用了固定维度的说话者嵌入。这种方法并没有有效地支持说话者克隆能力，并将其使用限制在TTS上。

然而，最近的策略包括更广泛的概念，如遮蔽语音预测和神经编解码语言建模。这些前沿方法使用了目标说话者的音频，而不是将其压缩为一维表示。因此，这些模型除了出色的零样本TTS性能之外，还展示了新的功能，如语音转换和语音编辑。这种增强的适应性可以极大地扩展语音生成模型的潜力。尽管这些当前的生成模型取得了令人惊叹的成就，但它们仍然存在一些限制，特别是在处理包括转换输入语音的多样化音频文本生成任务时。

例如，当前的语音编辑算法仅限于处理干净的信号，并且无法在保持背景噪声的同时改变说话内容。另外，讨论的方法通过要求噪声信号被干净的语音片段包围以完成降噪，从而对其实际应用性产生了重大限制。目标说话者提取是一个在处理不干净语音时特别有帮助的任务。目标说话者提取是从包含多个说话者的语音混合物中去除目标说话者的声音的过程。您可以通过播放他们的一个小语音片段来指定您想要的说话者。正如前面提到的，尽管具有潜在重要性，但当前一代的生成语音模型无法处理这个任务。

在传统的语音增强任务（如降噪和目标说话者提取）的可靠信号恢复中，回归模型在以往的方法中一直被使用。然而，这些早期的技术有时需要为每个任务使用不同的专家模型，这在考虑到可能出现的各种声学干扰时并不理想。除了侧重于某些语音改进任务的小型研究之外，还有很多研究需要在使用参考转录产生可理解语音的完整音频文本生成模型上进行。在所述因素和其他学科中取得的成功先例的背景下，集成生成和转换能力的音频文本生成语音模型的发展具有重要的研究意义。

微软研究员推出SpeechX：一种多功能语音生成模型，能够进行零样本TTS和各种语音转换任务四海第3张 — 图1：SpeechX的整体布局。SpeechX使用经过训练的文本和声学令牌流的神经编解码语言模型，执行各种基于音频文本的语音生成任务，如降噪、语音去除、目标说话者提取、零样本TTS、干净语音编辑和噪声语音编辑。对于某些任务，不需要文本输入。

这些模型具有处理各种语音生成任务的广泛能力。它们表明这些模型应包括以下关键特征：

• 多功能性：统一的音频文本生成语音模型必须能够执行从音频和文本输入中生成语音的各种任务，类似于其他机器学习领域中产生的统一或基础模型。这些任务不仅包括零样本TTS，还应包括许多类型的语音改变，例如语音增强和语音编辑。

• 容忍度：由于统一模型可能在声学困难的环境中使用，它们必须对各种声学扭曲表现出容忍度。由于这些模型提供可靠的性能，它们可以在常见的背景噪声存在的现实情况下具有实用性。

• 可扩展性：统一模型必须使用灵活的架构，以支持平滑的任务扩展。一种方法是为新组件提供空间，例如额外的模块或输入标记。由于这种灵活性，模型将能够更好地适应新的语音生成任务。微软公司的研究人员在本文中介绍了一种灵活的语音生成模型来实现这个目标。它能够执行多个任务，如零-shot TTS、使用可选的转录输入进行噪声抑制、语音去除、使用可选的转录输入进行目标说话人提取，以及在安静和嘈杂的声学环境中进行语音编辑（图1）。他们将SpeechX1指定为推荐模型。

与VALL-E一样，SpeechX采用语言建模方法，根据文本和声学输入生成神经编解码模型的代码，或声学标记。为了实现处理多样化任务的能力，他们在多任务学习设置中加入了额外的标记，这些标记共同指定要执行的任务。实验结果使用来自LibriLight的60K小时语音数据作为训练集，证明了SpeechX的有效性，在所有上述任务中展示了与专家模型相媲美或更优越的性能。值得注意的是，SpeechX展示了保留语音编辑期间的背景声音以及利用参考转录进行噪声抑制和目标说话人提取等新颖或扩展的能力。展示他们提出的SpeechX模型能力的音频样本可在https://aka.ms/speechx获取。