Press "Enter" to skip to content

“不那么庞大的语言模型:好的数据推翻巨人”

(由DALL·E生成的图像)

如何创建一个超过十亿规模的百万级语言模型

在本文中,我们将看到语言模型(LM)如何通过更好的数据和训练策略来实现类似LLM的结果(有时甚至更好),以及人们如何成功地且民主地进行这样的实践。

大型语言模型(LLM)有了显著的发展。它们具有引人注目的特性,从生成类似人类的文本到理解复杂的上下文。虽然最初的兴奋点主要集中在具有大量参数的模型上,但最近的发展表明,大小并不是唯一重要的因素。最近,一个名为小型语言模型(SLM)的新概念崛起,以智能地开发语言模型为动力。

大型模型的崛起

随着LLM的出现,叙事变得简单明了——越大越好。拥有更多参数的模型预计能更好地理解上下文,减少错误,并提供更好的答案。但随着模型的增长,它们对计算资源的需求也增加。训练这些庞然大物成为一项昂贵的任务,不是每个人都愿意(或能够)为之付费。

对质量和效率的强调

为了认识到仅仅增加参数的不可持续性和收益递减,研究人员开始重新思考策略。他们转而利用更好的数据和更高效的训练策略,而不仅仅是将金钱投入云端之火(添加更多的十亿级参数)。这个想法很巧妙:一个经过良好训练的较小模型可能会胜过一个训练不良的较大模型。但它能做到吗?

鼠兔和LLM训练的最佳点

《鼠兔论文》[1]对LLM的训练提供了有趣的见解。实验证明,当训练LLM时存在一个“最佳点”。超过这个点,将更多资源投入训练,以更多参数的形式,并不一定会导致性能成比例地增加。该论文强调,模型的性能不仅取决于其大小,还取决于数据的质量和使用的数据量。作者发现,对于计算优化的训练,模型大小和训练令牌的数量应该成等比例缩放:每当模型大小翻倍时,训练令牌的数量也应该翻倍。

他们通过训练鼠兔(一个拥有700亿参数、训练了1.4万亿令牌的模型)进行了测试。尽管规模较小,鼠兔在几乎所有评估中都优于Gopher,包括语言建模、问答、常识任务等。

鼠兔大小和训练令牌与SOTA LLMs的对比。(来源:[1])

尽管规模缩小,鼠兔在各种任务上表现优于其SOTA对手:

Massive Multitask Language Understanding(MMLU)。报告了57个任务的平均5-shot准确率,并与模型和人类准确率的比较数据来自[2],以及73位竞争性人类预测者在2022/2023年6月对SOTA准确率的平均预测数据来自[3]。(来源:[1])

阅读理解和自动推理是语言模型通常被测试的标准任务。它测试模型理解文本更广泛上下文的能力。在我们的案例中,这可以被举例为预测只有在模型能够理解这个词与之前上下文之间的关系(有时距离这个词的位置很远)时才能预期的单词。通常使用诸如RACE-h,RACE-m [4]和LAMBADA [5]等基准和数据集来评估。即使在这种难以定义和测试的任务中,Chinchilla也优于更大的模型。

在阅读理解方面,Chinchilla的性能明显优于Gopher。(来源:[1])

而且,尽管不专注于增加大小,Chinchilla是许多语言模型中展现出有希望的结果之一。

LLaMA

LLaMA [6]更进一步。作者引入了大小从7B到65B参数的较小的基础语言模型。它们使用公开可用的数据训练了超过1万亿个标记,使其与开源兼容。

LLaMA-13B在大多数基准测试中优于更大的175B参数的GPT-3,而体积却小了10倍以上。作者认为,在给定计算预算的情况下,对于给定的目标性能水平,较小的模型经过更长时间的训练比较大的模型更可取,因为推理效率更高。

LLaMA在常识推理任务上的零样本性能。(来源:[6])

一些项目甚至成功地在预算有限的Android智能手机上运行了LLaMA(或者说它的一个版本),进一步证明了我们在通过低计算资源实现对性能优越的语言模型的民主化访问的正确道路上(LLaMA.c [7])。

LLaMA-65B(我知道,不再那么小了,但仍然……)在与使用专有数据集的当前最先进模型(如PaLM-540B)竞争时表现出色。这清楚地表明,好的数据不仅改善了模型的性能,还可以使其民主化。机器学习工程师不需要庞大的预算就能在一个好的数据集上进行良好的模型训练。

好数据胜过巨人

进一步证明了语言模型不需要巨大才能表现良好的论点,TinyStories [8]提供了一个只包含儿童(四岁及以下)能理解的单词的故事的合成数据集。它可以用于训练具有不到1000万个参数的小语言模型(SLMs),这些模型可以生成具有良好语法、推理和连贯性的多段故事。这与之前的作品形成了对比,这些作品中,125M+参数的模型(如GPT-Neo(小)和GPT-2(小))难以生成连贯的文本。

使用TinyStories训练的模型产生的输出与两个数量级更大的模型产生的输出相当。(来源:[8])

TinyStories的令人兴奋之处之一是数据集本身是由GPT-3.5和GPT-4创建的。作者还使用GPT-4引入了一种新的SLM评估范例,用于在语法、情节和创造力等维度上“评分”生成的故事。这克服了标准基准测试要求受限输出的局限性。

结论

语言模型的发展历程展示了人工智能中的一个关键教训:更大并不总是更好。随着社区的不断发展和创新,人们意识到效率、数据质量和优化的训练策略是机器学习未来的关键。

主要要点

  • Chinchilla证明了在训练语言模型时,令牌数量和训练数据质量存在一个最佳点。这与模型参数的定义一样重要(甚至更重要);
  • LLaMa表明只使用公开可用数据也可以实现类似Chinchilla的结果,证明这种策略是民主可行的;
  • 像TinyStories这样的数据集可以用来训练小型语言模型(少于1亿个参数),在特定任务上胜过数十亿参数的模型。

参考文献

[1] Hoffmann, Jordan, et al. “Training compute-optimal large language models.” arXiv preprint arXiv:2203.15556 (2022).

[2] D. Hendrycks, et al. “Measuring massive multitask language understanding.” arXiv preprint arXiv:2009.03300 (2020).

[3] J. Steinhardt. Updates and lessons from AI forecasting, 2021. URL https://bounded-regret.ghost.io/ai-forecasting/.

[4] Lai, Guokun, et al. “RACE: Large-scale ReAding Comprehension Dataset From Examinations.” In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 785–794, Copenhagen, Denmark. Association for Computational Linguistics.

[5] Paperno et al., 2016 “The LAMBADA dataset: Word prediction requiring a broad discourse context.” arXiv:1606.06031 (2016).

[6] Touvron, Hugo et al. “LLaMA: Open and Efficient Foundation Language Models.” ArXiv abs/2302.13971 (2023)

[7] https://github.com/karpathy/llama2.c

[8] Eldan, Ronen and Yuan-Fang Li. “TinyStories: How Small Can Language Models Be and Still Speak Coherent English?” ArXiv abs/2305.07759 (2023)

Leave a Reply

Your email address will not be published. Required fields are marked *