UCL和Google DeepMind的研究人员揭示了Transformer神经网络中上下文学习（ICL）的瞬息动态

模型在推理时利用输入来修改其行为的能力，而无需更新权重以解决训练期间不存在的问题，被称为上下文学习或ICL。神经网络结构，尤其是为了少样本知识而创建和训练的能够从少量示例中学习所需行为的能力，是最早表现出这种能力的。为了使模型在训练集上表现良好，它必须记住上下文中的示例-标签映射，以便在未来进行预测。在这些情况下，训练意味着在每个“episode”上重新安排与输入示例对应的标签。测试时提供了新的示例-标签映射，网络的任务是使用这些来对查询示例进行分类。

ICL的研究是由transformer的发展而演变而来的。人们注意到，作者并没有通过训练目标或数据来特别鼓励ICL；相反，经过适当大小的自回归训练后，基于transformer的语言模型GPT-3展示了ICL的能力。从那时起，已经有大量的研究探讨或记录了ICL的实例。由于这些令人信服的发现，大规模神经网络中的新兴能力成为研究的主题。然而，最近的研究表明，只有在某些具有特定语言数据特征的情况下，transformer的训练才会有时产生ICL。研究人员发现，在训练数据缺乏这些特征的情况下，transformer通常会转向内部权重学习（IWL）。在IWL状态下，transformer不使用新提供的上下文信息，而是使用存储在模型权重中的数据。关键是，ICL和IWL似乎相互矛盾；当训练数据具有突发特征（即对象以聚类形式而不是随机形式出现）并且具有大量的标记或类别时，ICL似乎更容易出现。有必要使用已建立的数据生成分布进行受控调查，更好地理解transformer中的ICL现象。

同时，还有一系列辅助语料研究探讨了直接在有机网络规模的数据上训练的巨型模型的出现，得出结论认为像ICL这样的非凡特征更可能在训练了更多数据的大型模型中出现。然而，依赖于大型模型带来了重要的实际障碍，包括快速创新、低资源环境下的能源高效训练和部署效率。因此，大量的研究致力于开发更小的transformer模型，这些模型可以提供等效的性能，包括出现ICL的能力。目前，发展紧凑而有效的转换器的首选方法是过度训练。这些小型模型通过使用更多的数据进行训练（可能是重复的）来计算预算，而不仅仅是遵循缩放规则所需的数据量。

UCL和Google DeepMind的研究人员揭示了Transformer神经网络中上下文学习（ICL）的瞬息动态四海第3张-四海吧 — **图1：**具有12层和64个嵌入维度，使用1600门课程进行训练，每类20个示例，上下文学习是暂时的。每个训练会话都会出现突发情况。由于训练时间不足，研究人员尽管发现这些环境极大地鼓励ICL，却没有看到ICL的瞬时性。(a) ICL评估器的准确性。(b) IWL评估器的准确性。研究团队注意到，由于测试序列属于分布之外，IWL评估器的准确性提高得非常缓慢，尽管训练序列的准确性为100%。(c) 训练日志的损失。两种颜色代表两个实验种子。

从根本上说，过度训练是建立在近期LLMs的ICL调查中的一个固有前提上的：持久性。人们认为，只要模型已经接受了足够的训练以产生ICL依赖能力，并且训练损失持续减少，模型将会在训练过程中保持。在这里，研究团队否定了普遍的持久性假设。他们通过修改一个常见的基于图像的少样本数据集来做到这一点，这使得我们能够在一个受控环境中全面评估ICL。研究团队提供了简单的场景，其中ICL出现并随着模型损失的减少而消失。

换个角度来说，尽管ICL被广泛认可为一种新兴现象，研究团队也应考虑到它可能只是暂时存在的可能性（图1）。研究团队发现，这种短暂性发生在各种模型大小、数据集大小和数据集种类上，尽管研究团队也表明某些属性可以延缓短暂性的出现。一般而言，那些被长时间不负责任地训练的网络发现ICL可能会瞬间消失，让人们对当代人工智能系统所期待的技能感到失望。