Press "Enter" to skip to content

“开源LMS的历史:更好的基础模型(第二部分)”

LLaMA、MPT、猎鹰和LLaMA-2将开源LLM模型推上了舞台…

(照片由Iñaki del Olmo在Unsplash上拍摄)

大型语言模型(LLM)的开源研究具有极高的价值,因为它旨在使一项强大而有影响力的技术民主化。尽管开源LLM现在已经被普遍使用和广泛研究,但在最初阶段,这一研究领域面临了一些难以克服的困境。换句话说,最初的开源LLM性能较差,并受到了严厉批评。本文将研究一系列研究,改变了这一局面,使高性能的预训练LLM对所有人都可用。考虑到预训练语言模型的成本如此之高,我们在这里研究的模型尤其具有影响力。在这些高性能的基础模型被创建和发布之后,许多人可以以较低的成本使用这些模型进行研究。

“考虑到训练方法的简单性,LLM的能力令人惊讶。” —— 来自于[14]

当前系列。 这篇概述是关于开源LLM历史的三篇系列文章的第二部分。系列文章的第一部分概述了初始创建开源LLM的尝试。在这里,我们将研究当前可用的最受欢迎的开源基础模型(即预训练但未微调或对齐的语言模型)。下一次,我们将介绍如何通过微调或对齐这些模型来创建各种有用的应用程序。

(来自于[10, 12, 14, 15])

开源LLM的早期阶段

在系列文章的第一部分中,我们了解到开源LLM的早期研究阶段提出了一些重要的基础模型,如OPT和BLOOM。然而,与封闭源预训练模型(如GPT-3)相比,这些模型被普遍认为性能较差。我们如何解决这个问题?首先,我们需要深入了解LLM训练过程。

训练流程。 LLM模型经过几个步骤进行训练,如下图所示。首先,我们对模型进行预训练…

Leave a Reply

Your email address will not be published. Required fields are marked *