“Lombard效应及其在听力障碍中的应用”

TL;DR: Lombard效应可以应用于语音转换和文本到语音技术，使合成音频在噪声中更易于理解。

你是否曾经想过，为什么我们在嘈杂的房间里倾向于大声说话？语音和语言研究人员也一直很好奇，并且他们探索了一种被称为Lombard效应的概念（由Étienne Lombard发现）。

💬 Lombard效应简介

想象一下你在一个派对上，音乐响起，每个人都在聊天和笑声中度过愉快的时光！为了让你的朋友听到你的声音，你的大脑会自动提高你的声音音量，调整你的音调，甚至调整你的语速。有趣的是，我们还倾向于根据面前的人和周围的噪声的反馈来调整我们的声音，以确保他们能够接收到信息。

现在，想象一下将这种效应应用于技术，比如文本到语音（TTS）系统。如果Alexa或Google Home能够以Lombard效应的方式说话会怎样？（这种情况已经被周六夜现场想象过）。

🔊 Lombard效应和文本到语音技术

一些研究（见[1]，[2]）探索了如何将Lombard风格应用于文本到语音技术，以提高可理解性。他们的目标是看看他们是否可以在具有Lombard风格录音的声音上进行训练，以提高可理解性和自然度。他们发现，与信号处理相比，这确实是一种更自然的提高可理解性的方法！

▴ 这为什么重要

我们不仅可以在接收端仅仅增加音量或处理信号（像大多数助听器那样），而是可以使语音在源头上听起来更加清晰！

助听器是令人惊叹的工程成果，但它们也存在一些挑战。它们不总是舒适的，可能昂贵，有些人甚至选择不经常使用它们。但是通过Lombard风格的TTS，语音会自动调整为更加清晰和易于理解的状态。这可能是一个重要的突破，不仅对于使用助听器的人来说，对于非母语人士（见[3]）和在嘈杂环境中的任何人来说都是如此！

🚩 当前问题

之前提到的研究使用了具有大量特定声音样本的数据集。当你没有这些数据时会发生什么？我们如何在不录制（对声音人才来说是繁琐、耗时且昂贵的）的情况下合成Lombard风格的声音？

🔍 一个解决方案？

声音转换是将某人的声音转移到其他人的语音录音上的过程，可以作为一种数据增强方法。其思想是通过将说话者的身份转移到Lombard语音录音上，创建具有Lombard风格的人的声音录音。

📚 我们的研究

在我们最近在Interspeech 23’的Clarity Workshop上发表的一篇论文中，我们决定研究如何在进行声音转换时保留Lombard效应。实际上，目标说话者的信息可能会覆盖Lombard效应的特征，从而无法给出预期的结果。我们想回答以下问题：在声音转换过程中，我们能否保留负责可理解性的Lombard说话风格，并同时转移说话者的身份？

在给定声音转换（VC）模型的情况下，我们研究了不同的调节方法。在下面的图表中，您可以找到我们在实验中尝试的三种系统。

VC+特征（显式调节）：我们首先决定分离声音的三个关键元素：音调、音量和倾斜度。然后，我们直接将提取的特征提供给模型的编码器。我们在Lombard录音中提取这些特征，并将它们提供给声音转换模型，以强制它在最终录音中保留这些特征，同时转移我们想要转移的声音。
VC+CLS（隐式调节）：如果我们希望模型自己学习这些特征呢？我们通过添加一个样式分类器来测试这一点，该分类器强制模型在声音转换后保留源样式。这种设置有助于保留Lombard风格，而无需我们在这方面进行任何特征的挑剔。
融合：这个系统将精选的特征和强制模型保留原始说话风格的分类器结合起来。

我们发现了什么？如下所示的柱状图显示了在高噪声水平下的可懂度，我们发现

每个系统在最佳性能特征下针对男性和女性目标语音的客观可懂度分数（通过SIIB指标测量）。作者提供的图片

确实，在转换过程中丧失了Lombard效应
显式和隐式调节有助于提高最终的可懂度
融合效果更好，但会丢失目标说话者的信息，使其变得不太有用
对于女性和男性的声音，不同的特征效果不同

👉 结论是什么？

过去的研究和我们的工作表明，Lombard风格的TTS确实增加了嘈杂环境中的语音可懂度。虽然自然度可能会受到影响，但在噪声中不太明显，说话者的身份也不会受到太大影响。在我们的研究中，我们发现通过使用显式或隐式的调节，基本的声音转换会丧失Lombard可懂度效应，但我们能够更好地传递它们！

在此处查看我们的论文 以获取更多细节！

🚀可懂语音的未来

想象一个世界，在这个世界中，语音合成能够模仿我们的自然调整，在嘈杂的地方使沟通更加顺畅。通过更多的研究和创新，Lombard风格的TTS可以帮助有听力障碍的人进行日常活动，如听音乐、观看YouTube视频、看电影等，并改善我们与智能助手和语音激活设备的互动！

参考文献

– [1] Bollepalli, Bajibabu等人。“使用长短期记忆循环神经网络进行语音合成的正常到Lombard适应。”。Speech Communication 110（2019）

– [2] Paul, Dipjyoti等人。“使用口语风格转换增强文本到语音合成的语音可懂度。”。Interspeech (2020)论文集

– [3] Marcoux, Katherine等人。“对于母语和非母语听众的母语和非母语语音的Lombard可懂度益处。”。Speech Communication 136（2022）