Automatic Speech Recognition

由谷歌研究，AI 助力社会公益团队的软件工程师 Jimmy Tobin 和 Katrin Tomanek 发布谷歌的 AI 助力社会公益团队由研究人员、工程师、志愿者和其他拥有共同社会影响关注点的人员组成。我们的使命是通过实现真实世界的价值，展示人工智能的社会效益，项目涵盖公共卫生、可访问性、危机应对、气候和能源以及自然和社会等领域。我们相信，驱动服务于未受服务的社区的积极变革的最佳方式是与变革者及其服务的组织合作。在本博客文章中，我们讨论了 AI 助力社会公益团队内的 Project Euphonia 所做的工作，该团队旨在改善对于患有语言障碍的人群的自动语音识别（ASR）。对于那些典型的语音，ASR模型的错误率（WER）可以低于10％。但对于那些语音障碍的人群，例如口吃、言语障碍和构音障碍等，WER可能会达到50％，甚至90％，具体取决于病因和严重程度。为了解决这个问题，我们与1000多名参与者合作，收集了超过1000小时的语音障碍样本，并使用这些数据来表明，ASR 个性化是弥合使用者语言障碍性能差距的可行途径。我们已经证明了，使用冻结层技术进行3-4分钟的训练语音，就可以成功实现个性化。这项工作导致了 Project Relate 的开发，该项目适用于那些可能从个性化语音模型中受益的任何非典型语音的使用者。与谷歌的语音团队合作建立的 Project Relate，使得那些难以被其他人和技术理解的人们能够训练自己的模型。人们可以使用这些个性化模型来更有效地沟通并获得更多的独立性。为了使 ASR…

Leave a Comment

由Google Research的研究科学家Arsha Nagrani和Paul Hongsuck Seo发布自动语音识别（ASR）是一项成熟的技术，广泛用于各种应用，例如电话会议、流媒体视频转录和语音命令。尽管该技术的挑战集中在嘈杂的音频输入方面，但多模式视频（例如电视，在线编辑视频）中的视觉流可以为提高ASR系统的鲁棒性提供有力的线索，这就是所谓的视听ASR（AV-ASR）。尽管唇部运动可以为语音识别提供强烈信号并且是AV-ASR最常关注的领域，但是在野外视频中口部通常不直接可见（例如由于自我中心的视角，面部覆盖和低分辨率），因此，一种新兴的研究领域是不受限制的AV-ASR（例如AVATAR），它调查整个视觉框架的贡献，而不仅仅是口部区域。然而，为训练AV-ASR模型构建视听数据集是具有挑战性的。虽然已经从在线教学视频中创建了How2和VisSpeech等数据集，但它们的规模很小。相比之下，模型本身通常是大型的，包含视觉和音频编码器，因此它们往往会在这些小型数据集上过度拟合。尽管如此，最近发布了许多经过大规模培训的仅音频模型，这些模型通过从类似于LibriLight和LibriSpeech的有声书籍中获得的大规模音频数据进行大规模培训而被大量优化。这些模型包含数十亿个参数，易于获得，并在跨域方面显示出强大的泛化能力。考虑到以上挑战，“AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot AV-ASR”中，我们提出了一种简单的方法，可在现有的大型仅音频模型中注入视觉信息，同时进行轻量级域适应。AVFormer使用轻量级可训练的适配器将视觉嵌入注入到冻结的ASR模型中（类似于Flamingo将视觉信息注入大型语言模型以进行视觉文本任务），这些适配器可以在少量弱标记的视频数据上进行训练，最小化额外的训练时间和参数。我们还介绍了一个简单的培训课程方案，我们证明它对于使模型有效地联合处理音频和视觉信息至关重要。由此产生的AVFormer模型在三个不同的AV-ASR基准测试（How2，VisSpeech和Ego4D）上实现了最先进的零样本性能，同时关键保持传统仅音频语音识别基准测试的良好性能（即，LibriSpeech）。无限制的视听语音识别。我们通过轻量级模块将视觉注入冻结的语音模型（BEST-RQ，灰色）中，以实现零样本视听ASR，创建一个参数和数据效率模型，称为AVFormer（蓝色）。当音频信号嘈杂时，视觉背景可以为稳健的语音识别提供有帮助的线索（视觉面包帮助将“丁香”这个音频错误更正为“面包”在生成的转录文本中）。使用轻量级模块注入视觉信息我们的目标是在现有的仅音频ASR模型中添加视觉理解能力，同时保持其对各种领域（AV和仅音频领域）的泛化性能。为此，我们使用以下两个组件增强现有的最先进的ASR模型（Best-RQ）：（i）线性视觉投影仪和（ii）轻量级适配器。前者将视觉特征投射到音频标记嵌入空间中。此过程允许模型正确连接分别预训练的视觉特征和音频输入标记表示。然后，后者最小化修改模型以增加对来自视频的多模态输入的理解。然后，我们使用HowTo100M数据集中未标记的Web视频以及ASR模型的输出作为伪地面真实性对这些附加模块进行培训，同时保持Best-RQ模型的冻结状态。这样的轻量级模块使数据效率和性能强的泛化成为可能。我们在零-shot的情况下对AV-ASR基准模型进行了扩展模型的评估，其中该模型从未在手动标注的AV-ASR数据集上进行过训练。用于视觉注入的课程学习在初始评估之后，我们经过实验证明，采用单一的联合训练轮次，模型难以同时学习适配器和视觉投影器。为了缓解这个问题，我们引入了一种分阶段课程学习策略，将这两个因素——领域自适应和视觉特征集成——解耦，并按顺序训练网络。在第一阶段，适配器参数在不提供视觉令牌的情况下进行优化。一旦适配器训练完成，我们加入视觉令牌，并在第二阶段中仅训练可视化投影层，同时保持训练好的适配器冻结。…

Tag: Automatic Speech Recognition

AVFormer：为零-shot AV-ASR注入视觉

Tag: Automatic Speech Recognition

Google Research 的负责任人工智能：面向社会公益的人工智能

AVFormer：为零-shot AV-ASR注入视觉