由Google Research的研究科学家Arsha Nagrani和Paul Hongsuck Seo发布
自动语音识别(ASR)是一项成熟的技术,广泛用于各种应用,例如电话会议、流媒体视频转录和语音命令。尽管该技术的挑战集中在嘈杂的音频输入方面,但多模式视频(例如电视,在线编辑视频)中的视觉流可以为提高ASR系统的鲁棒性提供有力的线索,这就是所谓的视听ASR(AV-ASR)。
尽管唇部运动可以为语音识别提供强烈信号并且是AV-ASR最常关注的领域,但是在野外视频中口部通常不直接可见(例如由于自我中心的视角,面部覆盖和低分辨率),因此,一种新兴的研究领域是不受限制的AV-ASR(例如AVATAR),它调查整个视觉框架的贡献,而不仅仅是口部区域。
然而,为训练AV-ASR模型构建视听数据集是具有挑战性的。虽然已经从在线教学视频中创建了How2和VisSpeech等数据集,但它们的规模很小。相比之下,模型本身通常是大型的,包含视觉和音频编码器,因此它们往往会在这些小型数据集上过度拟合。尽管如此,最近发布了许多经过大规模培训的仅音频模型,这些模型通过从类似于LibriLight和LibriSpeech的有声书籍中获得的大规模音频数据进行大规模培训而被大量优化。这些模型包含数十亿个参数,易于获得,并在跨域方面显示出强大的泛化能力。
考虑到以上挑战,“AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot AV-ASR”中,我们提出了一种简单的方法,可在现有的大型仅音频模型中注入视觉信息,同时进行轻量级域适应。AVFormer使用轻量级可训练的适配器将视觉嵌入注入到冻结的ASR模型中(类似于Flamingo将视觉信息注入大型语言模型以进行视觉文本任务),这些适配器可以在少量弱标记的视频数据上进行训练,最小化额外的训练时间和参数。我们还介绍了一个简单的培训课程方案,我们证明它对于使模型有效地联合处理音频和视觉信息至关重要。由此产生的AVFormer模型在三个不同的AV-ASR基准测试(How2,VisSpeech和Ego4D)上实现了最先进的零样本性能,同时关键保持传统仅音频语音识别基准测试的良好性能(即,LibriSpeech)。
无限制的视听语音识别。我们通过轻量级模块将视觉注入冻结的语音模型(BEST-RQ,灰色)中,以实现零样本视听ASR,创建一个参数和数据效率模型,称为AVFormer(蓝色)。当音频信号嘈杂时,视觉背景可以为稳健的语音识别提供有帮助的线索(视觉面包帮助将“丁香”这个音频错误更正为“面包”在生成的转录文本中)。 |
使用轻量级模块注入视觉信息
我们的目标是在现有的仅音频ASR模型中添加视觉理解能力,同时保持其对各种领域(AV和仅音频领域)的泛化性能。
为此,我们使用以下两个组件增强现有的最先进的ASR模型(Best-RQ):(i)线性视觉投影仪和(ii)轻量级适配器。前者将视觉特征投射到音频标记嵌入空间中。此过程允许模型正确连接分别预训练的视觉特征和音频输入标记表示。然后,后者最小化修改模型以增加对来自视频的多模态输入的理解。然后,我们使用HowTo100M数据集中未标记的Web视频以及ASR模型的输出作为伪地面真实性对这些附加模块进行培训,同时保持Best-RQ模型的冻结状态。这样的轻量级模块使数据效率和性能强的泛化成为可能。
我们在零-shot的情况下对AV-ASR基准模型进行了扩展模型的评估,其中该模型从未在手动标注的AV-ASR数据集上进行过训练。
用于视觉注入的课程学习
在初始评估之后,我们经过实验证明,采用单一的联合训练轮次,模型难以同时学习适配器和视觉投影器。为了缓解这个问题,我们引入了一种分阶段课程学习策略,将这两个因素——领域自适应和视觉特征集成——解耦,并按顺序训练网络。在第一阶段,适配器参数在不提供视觉令牌的情况下进行优化。一旦适配器训练完成,我们加入视觉令牌,并在第二阶段中仅训练可视化投影层,同时保持训练好的适配器冻结。
第一阶段专注于音频领域自适应。到了第二阶段,适配器完全冻结,视觉投影器必须学习生成将视觉令牌投影到音频空间的视觉提示。通过这种方式,我们的课程学习策略允许模型集成视觉输入,并适应AV-ASR基准测试中的新音频领域。我们仅应用每个阶段一次,因为交替应用阶段会导致性能下降。
AVFormer的总体架构和训练过程。该架构由一个冻结的Conformer编码器-解码器模型和一个冻结的CLIP编码器(灰色锁定符号表示冻结层),以及两个轻量级的可训练模块组成——(i)视觉投影层(橙色)和瓶颈适配器(蓝色),以实现多模态领域自适应。我们提出了一种两阶段的课程学习策略:首先在不提供任何视觉令牌的情况下训练适配器(蓝色),然后在保持其他部分冻结的情况下调整视觉投影层(橙色)。 |
下图显示,没有采用课程学习时,我们的AV-ASR模型在所有数据集上都比纯音频基线差,随着添加更多视觉令牌,差距越来越大。相反,当采用提出的两阶段课程学习时,我们的AV-ASR模型比基线的纯音频模型表现显著更好。
课程学习的效果。红线和蓝线是音频视觉模型,分别在三个零-shot数据集上展示(WER %越低越好)。采用课程学习有助于所有三个数据集(对于How2(a)和Ego4D(c),它对超越纯音频效果至关重要)。性能会随着添加4个视觉令牌而改善,此时性能趋于平稳。 |
零-shot AV-ASR结果
我们将AVFormer与BEST-RQ、我们模型的音频版本,以及AV-ASR领域的最新技术AVATAR进行了比较,评估它们在三个AV-ASR基准测试(How2、VisSpeech和Ego4D)的零-shot表现。AVFormer在所有测试中都优于AVATAR和BEST-RQ,甚至在它们使用LibriSpeech和完整的HowTo100M进行训练时,也超过了它们两个的表现。这是值得注意的,因为对于BEST-RQ,这意味着要训练600M个参数,而AVFormer只训练4M个参数,因此只需要训练数据集的一小部分(HowTo100M的5%)。此外,我们还评估了纯音频的LibriSpeech的表现,AVFormer也超过了两个基准。
与零样本性能的最新方法进行比较,跨不同的AV-ASR数据集。我们还展示了仅为语音的LibriSpeech的表现。结果以WER%(越低越好)报告。 AVATAR和BEST-RQ在HowTo100M上进行了端对端(所有参数)微调,而AVFormer即使使用5%的数据集也能有效地工作,这要归功于微调参数的少量集合。 |
结论
我们介绍了AVFormer,一种轻量级的方法,用于调整现有的、冻结的最先进的ASR模型,用于AV-ASR。我们的方法实用高效,实现了令人印象深刻的零样本性能。随着ASR模型越来越大,调整预训练模型的整个参数集变得不切实际(对于不同领域更是如此)。我们的方法无缝地允许在同一参数效率模型中进行域转移和视觉输入混合。
致谢
本研究由Paul Hongsuck Seo、Arsha Nagrani和Cordelia Schmid进行。