Press "Enter" to skip to content

LLaMA:为所有人提供LLM!

高性能开源语言模型……

(照片来自Unsplash上的Raspopova Marina)

多年来,深度学习社区一直秉持开放和透明的态度,从而推动了像HuggingFace这样的大规模开源项目的产生。深度学习中的许多重要思想(如transformers[2]、自监督学习等)都可以在网上公开获得,无论是通过公共代码仓库还是Arxiv。尽管开源已经成为常态已经有一段时间了,但是大型语言模型(LLMs)的普及度(以及商业应用性)最近对这种趋势提出了挑战。

如今,许多最强大的LLMs只能通过API(如OpenAI或Anthropic)访问,使得研究人员和开发者无法获得源代码和模型参数。虽然我并不打算引发关于LLM领域当前趋势的道德讨论,但这些信息与本文的主题——开放可用的LLMs相关。有趣的是,并非所有强大的语言基础模型都隐藏在付费墙后面。一些模型,如LLaMA,既是开放可用的,又具有极高的性能,从而在深度学习研究社区中保持了开放的意识。

LLaMA是什么? LLaMA不是单一模型,而是一套参数从70亿到650亿不等的LLMs。受到Chinchilla[3]的启发,这些LLMs比其对应的模型稍小,但在预训练方面投入了更多的努力(即更小的模型,更多的标记),旨在提供一组在性能和推理效率之间具有不同权衡的模型。LLaMA模型表现出色;例如,130亿参数模型与GPT-3[4]相当,而650亿参数模型通常超过PaLM[5]的性能。

“GPT-4已经从各种经过授权的、创建的和公开可用的数据源中学习,其中可能包括公开可用的个人信息。” —— 来自[6]

除了令人印象深刻的性能外,LLaMA仅使用公开可用的数据进行预训练。在LLM领域中迈出(回归)开源的一步,LLaMA模型可以完全通过在线资源进行复现。最近的模型,如GPT-4,已知是通过公共和……

Leave a Reply

Your email address will not be published. Required fields are marked *