Google Research 的负责任人工智能：面向社会公益的人工智能

由谷歌研究，AI 助力社会公益团队的软件工程师 Jimmy Tobin 和 Katrin Tomanek 发布

谷歌的 AI 助力社会公益团队由研究人员、工程师、志愿者和其他拥有共同社会影响关注点的人员组成。我们的使命是通过实现真实世界的价值，展示人工智能的社会效益，项目涵盖公共卫生、可访问性、危机应对、气候和能源以及自然和社会等领域。我们相信，驱动服务于未受服务的社区的积极变革的最佳方式是与变革者及其服务的组织合作。

在本博客文章中，我们讨论了 AI 助力社会公益团队内的 Project Euphonia 所做的工作，该团队旨在改善对于患有语言障碍的人群的自动语音识别（ASR）。对于那些典型的语音，ASR模型的错误率（WER）可以低于10％。但对于那些语音障碍的人群，例如口吃、言语障碍和构音障碍等，WER可能会达到50％，甚至90％，具体取决于病因和严重程度。为了解决这个问题，我们与1000多名参与者合作，收集了超过1000小时的语音障碍样本，并使用这些数据来表明，ASR 个性化是弥合使用者语言障碍性能差距的可行途径。我们已经证明了，使用冻结层技术进行3-4分钟的训练语音，就可以成功实现个性化。

这项工作导致了 Project Relate 的开发，该项目适用于那些可能从个性化语音模型中受益的任何非典型语音的使用者。与谷歌的语音团队合作建立的 Project Relate，使得那些难以被其他人和技术理解的人们能够训练自己的模型。人们可以使用这些个性化模型来更有效地沟通并获得更多的独立性。为了使 ASR 更具可访问性和可用性，我们描述了如何微调谷歌的通用语音模型（USM），以更好地理解数字助理技术、口述应用程序和对话中的语言障碍，而无需个性化。

解决挑战

与 Project Relate 使用者密切合作后，我们发现个性化模型非常有用，但对于许多使用者来说，录制几十个或几百个示例可能会有挑战。此外，个性化模型在自由形式对话中的表现也不总是很好。

为了解决这些挑战，Euphonia 的研究工作一直专注于发展让模型更好地适应语言障碍的说话人无关 ASR（SI-ASR），从而使模型在使用时不需要任何额外的训练。

用于 SI-ASR 的提示语音数据集

构建稳健的 SI-ASR 模型的第一步是创建代表性数据集拆分。我们通过将 Euphonia 语料库拆分为训练、验证和测试部分来创建 Prompted Speech 数据集，同时确保每个拆分涵盖一定范围的言语障碍严重程度和基本病因，并且没有说话人或短语出现在多个拆分中。训练部分包括来自1000多名言语障碍者的超过950k个言语表述。测试集包含来自350多名言语障碍者的约5700个言语表述。语言病理学家手动审核了测试集中所有言语表述的转录准确性和音频质量。

真实对话测试集

自发或对话语音与提示语音在几个方面存在不同。在对话中，人们讲话更快，发音不太清晰。他们重复单词、修正错误的单词，并使用更具特定性和个人化的词汇，适用于自己和他们的社区。为了改进此用例的模型，我们创建了 Real Conversation 测试集来评估性能。

Real Conversation 测试集是由受信任的测试人员的帮助下创建的，他们在对话期间录制了自己的说话。审核音频，删除任何个人可识别信息（PII），然后语音病理学家进行了转录。Real Conversation 测试集包含来自29名使用者的超过1500个言语表述。

将 USM 调整为适应语言障碍

然后，我们在 Euphonia Prompted Speech 训练部分上调整了 USM，以提高其在语言障碍方面的性能。我们的调整不是对整个模型进行微调，而是基于残差适配器的调整方法，该方法是一种参数高效的调整方法，将可调谐的瓶颈层作为变压器层之间的残差添加。只有这些层被调整，而模型的其他权重则保持不变。我们之前已经证明了这种方法在将 ASR 模型适应语言障碍方面非常有效。残差适配器仅添加到编码器层，并且瓶颈维度设置为64。

结果

为了评估适应性 USM，我们将其与旧的 ASR 模型进行比较，使用上述两个测试集。对于每个测试，我们将适应性 USM 与最适合该任务的预 USM 模型进行比较: (1) 对于短提示语音，我们与 Google 的生产 ASR 模型进行比较，该模型经过了短形式 ASR 的优化; (2) 对于更长的真实对话语音，我们将其与为长形式 ASR 训练的模型进行比较。USM 对预 USM 模型的改进可以通过 USM 博客文章中讨论的 USM 相对大小增加 (120M 到 2B 参数) 和其他改进来解释。

Google Research 的负责任人工智能：面向社会公益的人工智能 AI 研究第1张

每个测试集的模型词错误率 (WER) (越低越好)。

我们发现，适应混乱语音的 USM 显著优于其他模型。适应性 USM 在真实对话中的 WER 比预 USM 模型提高了 37%，在提示语音测试集上，适应性 USM 的表现提高了 53%。

这些发现表明，适应性 USM 对于具有混乱语音的最终用户来说更加可用。我们可以通过查看 Euphonia 和 Project Relate 的受信任的测试人员的真实对话测试集录音的转录来证明这种改进 (见下文)。

音频 1	真实语音	预 USM ASR	适应性 USM
	我现在在膝盖上有一个 Xbox 适配控制器。	我现在有很多顾问在我嘴上。	我现在有一个 Xbox 适配器控制器在我的灯上。
	我已经交谈了一段时间了。让我们看看。	相当长的时间了	我已经交谈了一段时间了。

受信任的测试人员在真实对话测试集中的语音和转录示例。

预 USM 和适应性 USM 转录的比较揭示了一些关键优势:

第一个示例表明，适应性 USM 更擅长识别混乱的语音模式。基准遗漏了关键词，例如 “XBox” 和 “控制器”，这些关键词对于听众理解讲话者的意图非常重要。
第二个示例是 ASR 模型中删除是主要问题的一个很好的示例，这些模型没有使用混乱语音进行训练。虽然基准模型正确地转录了一部分，但许多内容没有被转录，失去了讲话者的意图。

结论

我们认为这项工作是让患有语音障碍的人更容易使用语音识别技术的重要一步。我们正在继续努力提高模型的性能。随着自动语音识别技术的快速发展，我们的目标是确保患有语音障碍的人也能从中受益。

致谢

本项目的主要贡献者包括Fadi Biadsy、Michael Brenner、Julie Cattiau、Richard Cave、Amy Chung-Yu Chou、Dotan Emanuel、Jordan Green、Rus Heywood、Pan-Pan Jiang、Anton Kast、Marilyn Ladewig、Bob MacDonald、Philip Nelson、Katie Seaver、Joel Shor、Jimmy Tobin、Katrin Tomanek和Subhashini Venugopalan。我们感谢美国南密西西比大学研究团队的成员包括Yu Zhang、Wei Han、Nanxin Chen等人对Project Euphonia的支持。最重要的是，我们想对2200多名参与者和许多帮助我们联系这些参与者的倡导组织表示衷心的感谢。

1 为了方便收听，音频音量已经进行了调整，但原始文件会更符合用于训练的标准，并且会包含停顿、沉默、音量变化等。 ↩︎