Press "Enter" to skip to content

关于上下文学习的一切你需要知道的

| 在上下文学习 | 大型语言模型 | LLMs

什么是以及它是如何工作的,是什么使大型语言模型如此强大

Photo by 🇸🇮 Janko Ferlič on Unsplash

“对我来说,上下文是关键——从中得到了对一切的理解。” — Kenneth Noland

在上下文学习(ICL)是最令人惊讶的模型技能之一。在 GPT-3 中观察到它引起了作者的注意。 究竟什么是 ICL?更重要的是,它是如何产生的?

本文分为不同的部分,对于每个部分,我们将回答以下问题:

  • 什么是上下文学习(ICL)?为什么这很有趣?它有什么用处?
  • ICL 的神秘之处:它是如何工作的?训练数据?提示?还是架构?
  • ICL 的未来是什么?还有什么挑战?

请查看文章末尾的参考文献列表,我还提供了一些建议来深入了解这些主题。

什么是上下文学习(ICL)?

Photo by Dmitry Ratushny on Unsplash

“我语言的限制也就是我的世界的限制。” — Ludwig Wittgenstein

在大型语言模型(LLMs)发布之前,人工智能模型的能力限制在其训练数据上。换句话说,LLMs只能解决其训练设计的任务。

而 GPT-3 和今天的LLMs则展示了一项新的能力:通过在输入(提示)中提供新的示例,学习新的技能和解决新的任务。而且,在这种情况下,我们并没有训练模型;没有梯度更新或模型参数的改变。这种能力被称为上下文学习(ICL)。

Leave a Reply

Your email address will not be published. Required fields are marked *