大型语言模型(LLMs)近几个月来备受瞩目。作为人工智能领域最好的进展之一,这些模型正在改变人类与机器交互的方式。由于每个行业都在采用这些模型,它们是人工智能接管世界的最佳例证。 LLM在生成文本方面表现出色,尤其是在涉及复杂交互和知识检索的任务中,最著名的例子是OpenAI开发的基于GPT 3.5和GPT 4转换器架构的ChatGPT聊天机器人。除了文本生成外,像CLIP(对比性语言-图像预训练)这样的模型也已经被开发出来,用于图像生成,可以根据图像内容创建文本。
为了在音频生成和理解方面取得进展,谷歌的研究人员介绍了AudioPaLM,这是一个大型语言模型,可以处理语音理解和生成任务。 AudioPaLM结合了两个现有模型的优点,即PaLM-2模型和AudioLM模型,以产生一个统一的多模态架构,可以处理和生成文本和语音。这使得AudioPaLM可以处理各种应用,从语音识别到语音转文本。
虽然AudioLM擅长维护诸如讲话者身份和语气之类的语言信息,但是PaLM-2,即基于文本的语言模型,专门处理文本特定的语言知识。通过结合这两个模型,AudioPaLM利用了PaLM-2的语言专业知识和AudioLM的语言信息保留,从而更全面地理解和创建文本和语音。
AudioPaLM利用联合词汇表,可以使用有限的离散标记表示语音和文本。将这个联合词汇表与标记任务描述相结合,可以在各种基于语音和文本的任务上训练单个仅解码器模型。传统上,语音识别,文本到语音合成和语音到语音翻译等任务是由分开的模型处理的,现在可以统一到单个架构和训练过程中。
在评估中,AudioPaLM在语音翻译方面的表现超过了现有系统。它展示了零-shot语音到文本翻译的能力,可以准确地将语音翻译为以前未遇到过的语言,从而为更广泛的语言支持开辟了可能性。AudioPaLM还可以基于简短的语音提示跨语言传递声音,并可以捕捉和复制不同语言中的不同声音,从而实现语音转换和适应。
该团队提到的关键贡献是:
- AudioPaLM利用了文本预训练中PaLM和PaLM-2s的能力。
- 它在自动语音翻译和语音到语音翻译基准方面取得了SOTA结果,并在自动语音识别基准方面表现出色。
- 该模型通过声音传递实现了声音到声音的翻译,超越了现有方法在语音质量和声音保留方面。
- AudioPaLM通过执行未见过的语言组合的自动语音翻译来展示了零-shot能力。
总之,AudioPaLM是一个统一的LLM,通过利用基于文本的LLM的能力和结合音频提示技术来处理语音和文本,是LLM列表中值得期待的新成员。