规模化语言建模：Gopher、道德考虑和检索

语言及其在展示和促进理解（或智能）中的作用是人类的基本组成部分。它赋予人们沟通思想和概念、表达观点、创造记忆和建立相互理解的能力。这些是社交智能的基本组成部分。这就是为什么我们DeepMind团队在人工智能代理和人类中都研究语言处理和交流方面的内容。

作为更广泛的人工智能研究的一部分，我们相信更强大的语言模型的开发和研究——即预测和生成文本的系统——在构建安全高效的先进人工智能系统方面具有巨大潜力，可以用于总结信息、提供专业建议和通过自然语言遵循指令。开发有益的语言模型需要研究它们的潜在影响，包括它们可能带来的风险。这包括各个领域专家之间的合作，以深思熟虑地预见和解决现有数据集上训练算法可能带来的挑战。

今天，我们发布了三篇关于语言模型的论文，反映了这种跨学科的方法。其中包括一项有关2800亿参数变压器语言模型Gopher的详细研究，一项关于大型语言模型的伦理和社会风险的研究，以及一篇调查更高的训练效率的新架构的论文。

Gopher – 2800亿参数语言模型

在探索语言模型并开发新模型的过程中，我们训练了一系列不同规模的变压器语言模型，参数从4400万到2800亿不等（我们最大的模型被命名为Gopher）。

我们的研究调查了这些不同规模模型的优势和劣势，突出了模型规模增加继续提升性能的领域，例如阅读理解、事实核查和有害语言的识别等领域。我们还提供了模型规模并不显著改善结果的结果，例如逻辑推理和常识任务。

根据类别拆分的大规模多任务语言理解（MMLU）基准测试的性能。Gopher在多个类别上改进了以前的工作。

在我们的研究中，我们发现Gopher的能力在一些关键任务上超过了现有的语言模型。这包括大规模多任务语言理解（MMLU）基准测试，在该测试中，Gopher在以前的工作基础上实现了对人类专家表现的显著进步。

除了对Gopher进行定量评估外，我们还通过直接交互来探索模型。我们的主要发现之一是，当Gopher被引导进行对话交互（例如在聊天中）时，模型有时可以提供令人惊讶的连贯性。

规模化语言建模：Gopher、道德考虑和检索四海第2张

在这里，Gopher可以讨论细胞生物学并提供正确的引用，尽管没有进行特定的对话微调。然而，我们的研究还详细描述了模型规模不同的一些故障模式，其中包括重复的倾向、对陈规定型偏见的反映以及错误信息的自信传播。

规模化语言建模：Gopher、道德考虑和检索四海第3张

这种类型的分析非常重要，因为了解和记录故障模式可以帮助我们了解大型语言模型可能导致的下游危害，并指导研究中的减轻工作应该关注哪些问题。

在我们的第二篇论文中，我们预见了语言模型可能存在的伦理和社会风险，并在此领域的先前研究基础上创建了一套全面的风险和故障模式分类体系[ Bommasani等，2021年，Bender等，2021年，Patterson等，2021年]。这种系统性的概述是理解这些风险并减轻潜在危害的重要步骤。我们提出了与语言模型相关的风险的分类体系，分为六个主题领域，并详细说明了21个风险。

从广泛的风险领域的角度来看是至关重要的：正如我们在论文中所展示的，过于狭隘地专注于单一风险会加剧其他问题。我们提出的分类体系为专家和广大公众讨论在语言模型上的伦理和社会考虑提供了基础，帮助做出负责任的决策，并交流应对已确定的风险的方法。

规模化语言建模：Gopher、道德考虑和检索四海第4张

我们的研究发现，有两个特定领域需要进一步研究。首先，当前的基准测试工具无法充分评估某些重要风险，例如，当语言模型输出错误信息并且人们相信这些信息是真实的时候。评估这些风险需要更多关注与语言模型的人机交互。在我们的论文中，我们列出了几个类似的风险，这些风险同样需要新颖或更多学科间的分析工具。其次，需要更多关于风险缓解的工作。例如，众所周知，语言模型会复制有害的社会刻板印象，但是对这个问题的研究仍处于初级阶段，正如最近的一篇DeepMind的论文所示。

通过互联网规模检索进行高效训练

我们最终的论文基于Gopher的基础和我们的道德和社会风险分类法，提出了一种改进的语言模型架构，减少了训练的能源消耗，并且更容易将模型输出追溯到训练语料库中的来源。

检索增强的Transformer（RETRO）通过互联网规模的检索机制进行预训练。受到大脑在学习时依赖专门的记忆机制的启发，RETRO高效地查询文本段落以改进其预测。通过将生成的文本与RETRO用于生成的段落进行比较，我们可以解释模型为何做出特定的预测以及其来源。我们还看到，该模型与具有数量级更少参数的常规Transformer相比，获得了可比较的性能，并在几个语言建模基准上获得了最先进的性能。

规模化语言建模：Gopher、道德考虑和检索四海第5张

未来展望

这些论文为DeepMind在未来的语言研究提供了基础，特别是在对这些模型进行评估和部署方面。解决这些领域的问题对于确保与AI代理的安全交互至关重要，包括人们告诉代理他们想要什么以及代理向人们解释他们的行动。在使用通信以确保安全方面的更广泛的社区研究包括自然语言解释，使用通信减少不确定性以及使用语言将复杂决策分解为诸如增强，辩论和递归奖励建模等部分-所有这些都是重要的探索领域。

在我们继续研究语言模型的过程中，DeepMind将保持谨慎和深思熟虑的态度。这需要我们退后一步来评估我们所处的情况，勾勒出潜在的风险，并研究缓解措施。我们将努力在我们的模型的局限性方面保持透明和开放，并致力于减轻已确定的风险。在每个步骤中，我们借鉴了我们跨学科团队的广泛专业知识，包括我们的语言、深度学习、伦理和安全团队。这种方法是创建造福社会的大型语言模型的关键，进一步推动我们解决智能问题、促进科学进步和造福人类的使命。