Press "Enter" to skip to content

猎鹰:开源L应用程序的巅峰之作

开源和专有LLM之间的差距继续缩小…

(Photo by Alan Mersom on Unsplash)

最近对于开源大型语言模型(LLMs)的研究主要集中在两个领域:模仿学习和预训练开源基础模型。虽然这两种方法都可行,但创建高质量的开源基础模型特别有吸引力,因为这些模型可以以较低的成本进一步微调,并在各种不同的下游应用中使用。最初创建这些模型的尝试失败了。虽然后来的模型(如LLaMA和MPT-7B)表现得更好,但这些模型直到最近仍难以与其专有对手(如GPT-3.5或GPT-4)的质量相匹配。

通过Falcon-7B和Falcon-40B LLMs的发布[1],我们首次看到了开源基础LLMs开始与最受欢迎的付费模型相匹敌的质量。通过一个新颖的数据管道获取和训练了大规模文本语料库,这些模型在开源LLMs中取得(显著地)新的最先进性能,并且可以在商业应用中免费使用。更好的是,Falcon模型对其基础transformer架构进行了几处修改,显著加速了推理过程,甚至可以提高预训练的效率。

(from [1, 2])

大局观. 创建LLM的过程由几个步骤组成;请参见下文。这个过程的第一步(即获取预训练的基础模型)被广泛认为是代价最高的,无论是在金钱还是时间方面。

用于创建和细化LLM的多步骤过程(来自[16, 17])

此类模型以前被保留在专有API后面,但开源LLMs的进展使得高性能的基础LLMs更为公开可用。Falcon是这一类模型的另一个例子,并且与其他开源替代品相比,它实现了前所未有的性能水平。

使用网络数据进行LLM预训练

Leave a Reply

Your email address will not be published. Required fields are marked *