创新的LLM尺寸、效率和性能
近年来,对于解决大多数语言理解和生成任务,大型、深度的神经网络已成为首选的架构。最初,提出了一些模型,如BERT [2]和T5 [3],它们使用了一种两部分训练方法,即在大量文本语料库上进行自监督的“填充”目标的预训练,然后在目标数据集上进行微调; 请参见下文。尽管这些技术很有用,但最近对大型语言模型(LLMs)的研究表明,大型自回归(仅解码器)变换器模型在少样本学习方面非常有能力,在最小的下游任务适应上取得了令人印象深刻的性能。
LLMs的少样本学习能力首先由1750亿参数的GPT-3 [4]展示出来。为了进行少样本预测,模型在大量文本上进行预训练(使用基本的语言建模目标),然后提供任务描述和少量示例,说明如何解决任务; 请参见上文。对LLMs的进一步分析表明,模型性能随着规模的增长而平稳提高(根据幂律)[5, 6]。因此,除了GPT-3之外,还提出了各种LLMs,试图通过组合更大的模型和更多/更好的预训练数据来“扩大”模型和训练,通常能够实现更好的结果。
训练更大的LLMs具有益处,但难以高效完成。通常,我们将训练分布在许多机器上,每台机器配备几个加速器(即GPU或TPU)。这之前曾经成功地完成过(例如,MT-NLG在2240个A100 GPU系统上训练了5300亿的参数LLM),但结果并不那么令人印象深刻。模型虽然很大,但没有在足够的数据上进行训练。然而,如果具有更高的训练吞吐量,我们可以在更大的数据集上更彻底地进行预训练,从而产生更好的结果。
在此概述中,我们将探讨Pathways语言模型(PaLM),这是一个5400亿参数的LLM,使用…