Press "Enter" to skip to content

纽约大学和谷歌AI研究员探索机器学习在高级演绎推理方面的前沿

使用大量推理规则和构建子证明的就业使得证明的复杂性在许多演绎推理任务中无限发展,例如医学诊断或定理证明。由于巨大的证明空间,不可能找到覆盖所有大小保证的数据。因此,从基本证明开始,通用推理模型应能够推广到更复杂的证明。

纽约大学和谷歌AI研究人员的一个团队证明,LLMs在接受上下文学习(ICL)和思维链(CoT)提示的训练后可以进行演绎推理。一些演绎规则,例如假言附加式,是早期研究的主要重点。评估也是在演示中进行的,这意味着测试用例与上下文演示的分布相同。

纽约大学、谷歌和波士顿大学的研究人员进行的一项新研究探讨了LLMs能否推广到比演示更复杂的证明。学术界根据三个维度对证明进行分类:

  • 在演示的每个阶段使用的前提数量。
  • 构成证明的顺序步骤的长度。
  • 所使用的演绎规则。

总大小是这三个维度的函数。

该团队在两个重要方面对之前的研究进行了扩展,以评估LLMs的一般演绎推理能力。除了假言附加式外,他们测试LLMs是否掌握了所有演绎规则。他们的推理能力通过以下两种方式进行测试:

  1. 深度和宽度的推广涉及对比上下文示例提供的较长证明进行推理。
  2. 组合推广涉及在单个证明中使用大量的演绎规则。

根据他们的研究,推理任务在接受展示各种演绎规则的基本示例时最受益于上下文学习。为了防止模型过拟合,这些上下文示例必须包含它不熟悉的推导原则,例如分情况证明和反证法。此外,这些示例应该伴随有干扰项。

根据他们的发现,CoT可以使LLMs进行超领域推理,推广到组合证明。这些LLMs包括GPT-3.5 175B、PaLM 540B、LLaMA 65B和FLAN-T511B,其规模和训练目标各异。这一发现令人惊讶,考虑到大量文献主张LLMs缺乏组合泛化能力。ICL的泛化方式与监督学习不同,特别是在上下文样本上进行的梯度下降。明显地,使用与测试示例相同分布的上下文样本是更差的,因为它们在多个实例中被发现。例如,当上下文示例中包含特定演绎规则时,研究人员有时看到了更好的组合证明泛化效果。

似乎预训练并不能教育模型创建假设的子证明。没有明确的示例,LLMs无法推广到某些演绎规则(例如分情况证明和矛盾证明)。模型规模与性能之间的关系较弱。通过定制指导和更多的预训练,较小的模型(不是最小的,但可比较)可以与较大的模型竞争。

为了进一步了解ICL和CoT触发过程,研究人员指出了一个关键的领域需要今后进行研究。他们发现,最好的上下文示例通常来自于与测试示例本身不同的分布,即使是对于特定的测试示例。贝叶斯推理和梯度下降并不能解释这一点。他们有兴趣研究是否简单的示例效果更好,即使测试案例稍微复杂。需要进一步研究来了解如何更进一步地表征从特定实例进行推广。

Leave a Reply

Your email address will not be published. Required fields are marked *