“开源LLM的历史：模仿和调整（第三部分）”

开源LLM需要对其进行调整才能成为真正卓越的…

先前有关开源大型语言模型（LLMs）的大多数研究都集中在创建预训练基础模型上。然而，这些模型没有经过任何微调，因此无法与顶级闭源LLMs（例如ChatGPT或Claude）的质量相匹配，原因在于它们缺乏对齐。付费模型使用SFT和RLHF等技术进行广泛对齐，大大增强了其可用性。相比之下，开源模型通常通过较小的公共数据集进行较少的微调。然而，在本概述中，我们将研究最近的研究，旨在通过更广泛的微调和对齐来提高开源LLMs的质量。

本概述是我关于开源LLMs历史的系列文章的第三部（也是最后一部）。在系列文章的第一部分中，我们介绍了创建开源语言模型的最初尝试。尽管这些最初的预训练LLMs表现不佳，但很快就有了更好的开源基础模型，并在本系列的第二部分中进行了介绍。现在，我们将介绍如何对这些更好的开源模型进行微调/对齐，以提高它们的质量并缩小开源和专有LLMs之间的性能差距，完成从OPT等最初模型到我们今天拥有的非常高性能的开源LLMs（例如LLaMA-2-Chat）的过程。

对齐过程。本概述将研究开源LLMs的微调和对齐过程。然而，在研究这一领域的研究之前，我们需要了解什么是对齐以及如何实现对齐。我们应该记住，语言模型的训练过程分为几个部分。如上所示，我们首先进行预训练，然后进行几个微调步骤。在预训练之后，LLM可以准确地执行下一个…