语言模型(LMs)的出色性能表明,大规模的下一个单词预测可以将文本语料库中的知识有效地蒸馏成交互式代理。LMs在各种自然语言处理基准测试中取得了令人印象深刻的成果,超过了最先进的方法,甚至在需要复杂推理的任务中超过了人类。然而,至关重要的是确定它们的成功是源于任务通用推理能力还是在预训练期间识别和回忆特定任务。
以前的研究主要集中在实例级别的泛化,其中数据污染问题可能会复杂化。在这项研究中,研究人员通过改变执行良好任务的条件或规则来研究LMs对新任务变体的泛化能力。这些任务的一般推理过程保持不变,但是具体的输入-输出映射发生了变化。这些称为反事实任务的新任务偏离了默认条件,并衡量了模型的任务级泛化能力。
研究人员提出了一个由11个反事实评估任务组成的套件,涵盖了多个类别和领域。这些任务包括演绎推理、代码生成、绘图和空间推理。虽然原始任务和其反事实变体之间的推理过程保持一致,但是输入-输出映射不同。这个评估旨在评估LMs在适应新任务变体方面的灵活性。
对GPT-4、GPT-3.5、Claude和PaLM-2在任务的默认和反事实条件下的性能进行评估。结果表明,虽然LMs在反事实性能上表现出高于随机的表现,但与默认设置相比,它们的性能持续下降;这表明模型在这些任务上的成功部分归因于默认条件特定的行为,而不是抽象的、可推广的推理能力。
研究结果还揭示了默认任务和反事实任务之间的令人兴奋的关系。观察到默认和反事实性能之间的相关性,零-shot思维链提示的有效性以及任务和实例级频率效应之间的互动。总体而言,任务默认实例化的轻微变化对LMs构成了挑战,这表明现有模型的成功不应仅仅归因于它们对目标任务的通用能力。