关于上下文学习的一切你需要知道的

| 在上下文学习 | 大型语言模型 | LLMs

“对我来说，上下文是关键——从中得到了对一切的理解。” — Kenneth Noland

在上下文学习（ICL）是最令人惊讶的模型技能之一。在 GPT-3 中观察到它引起了作者的注意。 究竟什么是 ICL？更重要的是，它是如何产生的？

本文分为不同的部分，对于每个部分，我们将回答以下问题：

请查看文章末尾的参考文献列表，我还提供了一些建议来深入了解这些主题。

“我语言的限制也就是我的世界的限制。” — Ludwig Wittgenstein

在大型语言模型（LLMs）发布之前，人工智能模型的能力限制在其训练数据上。换句话说，LLMs只能解决其训练设计的任务。

而 GPT-3 和今天的LLMs则展示了一项新的能力：通过在输入（提示）中提供新的示例，学习新的技能和解决新的任务。而且，在这种情况下，我们并没有训练模型；没有梯度更新或模型参数的改变。这种能力被称为上下文学习（ICL）。