Press "Enter" to skip to content

“开源LLM的历史:模仿和调整(第三部分)”

开源LLM需要对其进行调整才能成为真正卓越的…

(图片来自Joanna Kosinska的Unsplash)

先前有关开源大型语言模型(LLMs)的大多数研究都集中在创建预训练基础模型上。然而,这些模型没有经过任何微调,因此无法与顶级闭源LLMs(例如ChatGPT或Claude)的质量相匹配,原因在于它们缺乏对齐。付费模型使用SFT和RLHF等技术进行广泛对齐,大大增强了其可用性。相比之下,开源模型通常通过较小的公共数据集进行较少的微调。然而,在本概述中,我们将研究最近的研究,旨在通过更广泛的微调和对齐来提高开源LLMs的质量。

(来自[1, 2, 12])

本概述是我关于开源LLMs历史的系列文章的第三部(也是最后一部)。在系列文章的第一部分中,我们介绍了创建开源语言模型的最初尝试。尽管这些最初的预训练LLMs表现不佳,但很快就有了更好的开源基础模型,并在本系列的第二部分中进行了介绍。现在,我们将介绍如何对这些更好的开源模型进行微调/对齐,以提高它们的质量并缩小开源和专有LLMs之间的性能差距,完成从OPT等最初模型到我们今天拥有的非常高性能的开源LLMs(例如LLaMA-2-Chat)的过程。

(来自[17, 18])

对齐过程。本概述将研究开源LLMs的微调和对齐过程。然而,在研究这一领域的研究之前,我们需要了解什么是对齐以及如何实现对齐。我们应该记住,语言模型的训练过程分为几个部分。如上所示,我们首先进行预训练,然后进行几个微调步骤。在预训练之后,LLM可以准确地执行下一个…

Leave a Reply

Your email address will not be published. Required fields are marked *