Tag: Applications

谷歌研究人员推出了AudioPaLM：一款改变语音技术的游戏规则——一种新的大型语言模型，具有史无前例的准确听、说和翻译能力

Published June 24, 2023 by 四海吧

大型语言模型（LLMs）近几个月来备受瞩目。作为人工智能领域最好的进展之一，这些模型正在改变人类与机器交互的方式。由于每个行业都在采用这些模型，它们是人工智能接管世界的最佳例证。 LLM在生成文本方面表现出色，尤其是在涉及复杂交互和知识检索的任务中，最著名的例子是OpenAI开发的基于GPT 3.5和GPT 4转换器架构的ChatGPT聊天机器人。除了文本生成外，像CLIP（对比性语言-图像预训练）这样的模型也已经被开发出来，用于图像生成，可以根据图像内容创建文本。为了在音频生成和理解方面取得进展，谷歌的研究人员介绍了AudioPaLM，这是一个大型语言模型，可以处理语音理解和生成任务。 AudioPaLM结合了两个现有模型的优点，即PaLM-2模型和AudioLM模型，以产生一个统一的多模态架构，可以处理和生成文本和语音。这使得AudioPaLM可以处理各种应用，从语音识别到语音转文本。虽然AudioLM擅长维护诸如讲话者身份和语气之类的语言信息，但是PaLM-2，即基于文本的语言模型，专门处理文本特定的语言知识。通过结合这两个模型，AudioPaLM利用了PaLM-2的语言专业知识和AudioLM的语言信息保留，从而更全面地理解和创建文本和语音。 AudioPaLM利用联合词汇表，可以使用有限的离散标记表示语音和文本。将这个联合词汇表与标记任务描述相结合，可以在各种基于语音和文本的任务上训练单个仅解码器模型。传统上，语音识别，文本到语音合成和语音到语音翻译等任务是由分开的模型处理的，现在可以统一到单个架构和训练过程中。在评估中，AudioPaLM在语音翻译方面的表现超过了现有系统。它展示了零-shot语音到文本翻译的能力，可以准确地将语音翻译为以前未遇到过的语言，从而为更广泛的语言支持开辟了可能性。AudioPaLM还可以基于简短的语音提示跨语言传递声音，并可以捕捉和复制不同语言中的不同声音，从而实现语音转换和适应。该团队提到的关键贡献是： AudioPaLM利用了文本预训练中PaLM和PaLM-2s的能力。它在自动语音翻译和语音到语音翻译基准方面取得了SOTA结果，并在自动语音识别基准方面表现出色。该模型通过声音传递实现了声音到声音的翻译，超越了现有方法在语音质量和声音保留方面。 AudioPaLM通过执行未见过的语言组合的自动语音翻译来展示了零-shot能力。总之，AudioPaLM是一个统一的LLM，通过利用基于文本的LLM的能力和结合音频提示技术来处理语音和文本，是LLM列表中值得期待的新成员。