Meta AI和剑桥大学的研究人员研究了如何利用大型语言模型（LLMs）加强语音识别能力

Meta AI和剑桥大学的研究人员研究了如何利用大型语言模型（LLMs）加强语音识别能力四海第1张

大型语言模型是新的趋势，得益于著名的ChatGPT的引入。这个聊天机器人由OpenAI开发，能够回答问题、对长段落的文本数据进行摘要、完成代码片段、将文本翻译成不同的语言等等。大型语言模型具有模仿人类的能力，基于人工智能的子领域，包括自然语言处理、自然语言理解、自然语言生成、计算机视觉等等。

在没有明确监督的情况下，大型语言模型通过预测大量文本数据中的下一个单词进行训练，从而在其神经网络的限制内开发了对外部世界的大量知识编码能力，使其在各种下游任务中非常有用。尽管大型语言模型在不同领域展现出了出色的性能，但最近的研究将一个小型音频编码器纳入模型中，通过启用语音识别进一步扩展了大型语言模型的能力。

该过程直接将一系列音频嵌入，如音频数据表示，融入已有的文本标记嵌入中。这使得大型语言模型能够像文本等价物一样自动执行语音识别（ASR）任务，因为它具有集成的表示。它还可以将口头交流翻译成打印文本。团队表示，仅具有解码器的大型语言模型可以执行多语种语音识别，并在训练时超过监督式单语训练基线。音频编码器模型的大小和帧速率、LLM参数的低秩适应、文本标记掩蔽以及所使用的大型语言模型类型是研究考察以提高识别准确性的几个变量之一。

通过分析音频编码器的输出，团队证明了音频嵌入与相应的文本标记准确匹配，展示了音频和文本信息的有效融合。为了评估这种策略的有效性，团队使用了Multilingual LibriSpeech（MLS）数据集来衡量其效果。开源的LLaMA-7B大型语言模型采用了一种专门用于音频处理的神经网络——conformer编码器。结果表明，这种调整使LLM在语音识别任务上的表现比单语基线提高了18%。主要以英文文本进行训练的LLaMA-7B在多语种语音识别方面表现出色。

除了主要实验外，该研究还对增强型LLM的性能的其他方面进行了调查。为了确定在LLM被冻结训练时是否能够保留其初始能力，研究人员进行了剔除试验。这意味着在ASR系统进行训练时不改变LLM的参数，并且结果表明，即使在LLM被冻结的情况下，它仍然能够很好地执行多语种ASR。

团队还研究了增加音频编码器规模、提高音频编码器步幅（与音频如何划分相关的参数）和生成更少的音频嵌入的效果。通过这些测试，旨在提高ASR系统的有效性和效率。总之，研究结果表明，即使使用更大的音频编码器或更长的步幅，多语种ASR的可行性仍然存在，并且LLM能够处理长格式音频输入。