Press "Enter" to skip to content

超越LLaMA：开放LLMs的力量

Published July 21, 2023 by 四海吧

LLaMA如何使开源再次变得酷炫

（来自Paz Arando的照片）

尽管大型语言模型（LLM）取得了近期的突破，但许多最强大的模型只能通过付费API进行访问，并使用大量专有数据进行训练，这限制了研究界访问或复现这些模型的能力。这一趋势引起了严重的担忧，即LLM是否将主要由少数中央集团控制，强制其他人为与这些模型交互付费。这种情况严重阻碍了大多数研究人员直接访问或改进LLM。

“[许多]LLM需要巨大的计算资源进行训练，并且通常使用大型和专有数据集。这表明在未来，高性能的LLM将主要由少数组织控制。” — 来自[5]

考虑到训练和托管LLM的计算负担，我们可能会想知道，对于研究界来说，开源这些模型是否有益处。如果我们不是庞大组织的一部分，没有广泛的计算资源，我们是否能够利用LLM进行有用的研究？如果不能，也许我们注定要生活在对LLM的集中控制和访问的世界中。对于大多数人来说，这些模型似乎具有太多的“引力”（即需要访问大量的数据和计算资源），很难与它们轻松地进行工作。

LLaMA的提议（以及随后泄露给公众）朝着相反的方向发展，通过开源一套功能强大（但较小）的LLM。随着LLaMA的发布，我们看到了一波波关于LLM的开放性研究。这些研究产生了各种不同的模型，其中一些模型的质量可与ChatGPT相媲美。然而，最显著的是，这些模型的成本非常低廉（大多数情况下不到500美元），并且使用的计算资源适中（其中一些模型可以在普通的MacBook上运行！）。在这里，我们将调查一些最近提出的基于LLaMA的模型，并探讨开源LLM研究如何使这一主题更具可访问性。

（来自[3, 4, 5]）

核心概念

Published in 四海

Leave a Reply

Web Analytics