Press "Enter" to skip to content

超越LLaMA:开放LLMs的力量

LLaMA如何使开源再次变得酷炫

(来自Paz Arando的照片)

尽管大型语言模型(LLM)取得了近期的突破,但许多最强大的模型只能通过付费API进行访问,并使用大量专有数据进行训练,这限制了研究界访问或复现这些模型的能力。这一趋势引起了严重的担忧,即LLM是否将主要由少数中央集团控制,强制其他人为与这些模型交互付费。这种情况严重阻碍了大多数研究人员直接访问或改进LLM。

“[许多]LLM需要巨大的计算资源进行训练,并且通常使用大型和专有数据集。这表明在未来,高性能的LLM将主要由少数组织控制。” — 来自[5]

考虑到训练和托管LLM的计算负担,我们可能会想知道,对于研究界来说,开源这些模型是否有益处。如果我们不是庞大组织的一部分,没有广泛的计算资源,我们是否能够利用LLM进行有用的研究?如果不能,也许我们注定要生活在对LLM的集中控制和访问的世界中。对于大多数人来说,这些模型似乎具有太多的“引力”(即需要访问大量的数据和计算资源),很难与它们轻松地进行工作。

LLaMA的提议(以及随后泄露给公众)朝着相反的方向发展,通过开源一套功能强大(但较小)的LLM。随着LLaMA的发布,我们看到了一波波关于LLM的开放性研究。这些研究产生了各种不同的模型,其中一些模型的质量可与ChatGPT相媲美。然而,最显著的是,这些模型的成本非常低廉(大多数情况下不到500美元),并且使用的计算资源适中(其中一些模型可以在普通的MacBook上运行!)。在这里,我们将调查一些最近提出的基于LLaMA的模型,并探讨开源LLM研究如何使这一主题更具可访问性。

(来自[3, 4, 5])

核心概念

Leave a Reply

Your email address will not be published. Required fields are marked *