LLaMA：为所有人提供LLM！

高性能开源语言模型……

多年来，深度学习社区一直秉持开放和透明的态度，从而推动了像HuggingFace这样的大规模开源项目的产生。深度学习中的许多重要思想（如transformers[2]、自监督学习等）都可以在网上公开获得，无论是通过公共代码仓库还是Arxiv。尽管开源已经成为常态已经有一段时间了，但是大型语言模型（LLMs）的普及度（以及商业应用性）最近对这种趋势提出了挑战。

如今，许多最强大的LLMs只能通过API（如OpenAI或Anthropic）访问，使得研究人员和开发者无法获得源代码和模型参数。虽然我并不打算引发关于LLM领域当前趋势的道德讨论，但这些信息与本文的主题——开放可用的LLMs相关。有趣的是，并非所有强大的语言基础模型都隐藏在付费墙后面。一些模型，如LLaMA，既是开放可用的，又具有极高的性能，从而在深度学习研究社区中保持了开放的意识。

LLaMA是什么？ LLaMA不是单一模型，而是一套参数从70亿到650亿不等的LLMs。受到Chinchilla[3]的启发，这些LLMs比其对应的模型稍小，但在预训练方面投入了更多的努力（即更小的模型，更多的标记），旨在提供一组在性能和推理效率之间具有不同权衡的模型。LLaMA模型表现出色；例如，130亿参数模型与GPT-3[4]相当，而650亿参数模型通常超过PaLM[5]的性能。

“GPT-4已经从各种经过授权的、创建的和公开可用的数据源中学习，其中可能包括公开可用的个人信息。” —— 来自[6]

除了令人印象深刻的性能外，LLaMA仅使用公开可用的数据进行预训练。在LLM领域中迈出（回归）开源的一步，LLaMA模型可以完全通过在线资源进行复现。最近的模型，如GPT-4，已知是通过公共和……