Press "Enter" to skip to content

来自苏黎世联邦理工学院和微软的研究人员推出 SCREWS一种增强大型语言模型推理能力的人工智能框架

大型语言模型(LLMs)在多种不同的推理任务中取得了成功。为了确保预期的目标得以实现,有时需要对LLM的结果进行迭代调整,因为输出在第一次尝试中只有偶尔准确。这些改进技术假设连续的结果(来自同一模型、外部模型或某些工具)会提高性能。然而,并不能保证后续版本总是更好,正如图1所示,改进可能导致错误的调整。这鼓励模型使用选择技术选择更早的结果。此外,在先前的迭代优化研究中通常使用单一的、固定的推理技术。但是人类更具适应性。

图1:一个案例研究,说明条件重新取样(也称为“改进”)可能导致对初始响应的错误修改。选择模块可能会选择替代改动的原始响应,而在这种情况下,原始响应是正确的。

产品经理在切换到优先级排序技术之前,可以使用头脑风暴技巧生成多个想法,然后根据可行性或影响对它们进行排名。同样地,准备考试的学生可能会使用演绎推理来回答问题,使用归纳推理来确认结果。他们因此提出了一种模块化的策略来回答改进问题,使我们能够尝试各种策略。在本文中,来自ETH Zurich和微软Semantic Machines的研究人员介绍了SCREWS,一个关于变更推理的模块化框架。采样、条件重新取样和选择是该架构的三个核心组件,详细介绍如图2所示。他们通过为每个模块固定子模块(例如,选择“Chain of Thought”用于采样)来实例化SCREWS。这是针对特定任务和输入序列进行的。

图2展示了用于推理修订的模块化SCREWS系统的高级图像。三个实质性的方框(或“模块”)分别包含多个选择(或“子模块”)。许多先前的工作,包括Self-Refine、Least to Most、LLMs Know (Mostly)、Self-Consistency、Self-Improve、PHP CoT、Self-Correct、Socratic CoT、Programme of Thoughts等,都可以看作是该框架的示例。(…)表示可以添加到每个模块中的其他子组件,包括但不限于采样模块的缓存内存或在线搜索、条件重新采样的精调模型或外部验证器以及选择模块基于人类或神谕的选择。

采样的第一个输出被传递给条件重新取样,该模块根据原始样本确定是否创建修订,并在有需要时执行。然后选择模块从所有样本和修订中选择最佳结果。由于他们的框架具有模块化设计,可以使用额外的框架元素来提升几种新提出的自我改进方法。一个示例是他们基于模型的选择技术和自我改进方法的组合,可以提高整体性能。他们使用ChatGPT或GPT-4对SCREWS在各种推理任务上进行评估,包括多跳问题回答、算术推理和代码调试。

与标准样本和重抽样程序相比,他们提出的解决方案显著改进了(10-15%)。他们展示了异质重抽样的价值,显示了它如何影响模型的逻辑并且以极低的总成本大幅改进了基线。他们还解释了基于模型选择方法的重要性,这是当代LLMs的关键要素,使模型能够恢复到较早、更确定的输出。

Leave a Reply

Your email address will not be published. Required fields are marked *