“认识RAP和LLM推理器：基于相似概念的两个框架，用于LLM的高级推理”

每一天都带来了大型语言模型（LLMs）的显著进展，这些模型在文本生成、情感分类、文本分类和零样本分类等各种任务中表现出色。它们的能力超越了这些领域，使内容创作、客户服务和数据分析实现自动化，从而彻底改变了生产力和效率。

最近，研究人员还开始探索使用LLMs进行推理的用途和效用。这些模型可以理解复杂的文本信息，并从中进行逻辑推理。LLMs擅长于问题回答、问题解决和决策制定等任务。然而，LLMs仍然不能像人类一样解决对人类来说很容易的问题，比如在给定环境中生成执行任务的行动计划，或者进行复杂的数学、逻辑和常识推理。LLMs在某些任务上面临困难，因为它们没有像人类那样的内部世界模型。这意味着它们无法预测在特定情况下事物的发展情况，或者模拟行动的长期结果。人类拥有内部世界模型，即对环境的心理表示，使得人类能够模拟行动及其对世界状态的影响，从而在复杂任务中进行有意识的计划。

为了解决这些问题，研究人员设计了一种新的推理框架，即基于规划的推理（RAP）。该框架使用一个库，使LLMs能够使用先进的推理算法进行复杂的推理。该框架将多步推理方法视为规划，并搜索最优推理链，以实现“世界模型”和“奖励”之间的最佳探索与开发平衡。除了RAP论文外，研究团队还提出了LLM推理器。LLM推理器是一个专门为语言模型（LLMs）设计的AI库，通过使用先进的算法，使其具备进行复杂推理的能力。它将多步推理视为规划，搜索最有效的推理链，并使用“世界模型”和“奖励”的概念优化探索和开发之间的平衡。你只需要定义一个奖励函数和（可选地）一个世界模型。LLM推理器负责处理其余的事情，包括推理算法、可视化、LLM调用等等！

世界模型将部分解决方案视为状态，并将新的行动/思考附加到状态作为状态转换。奖励函数在评估推理步骤的表现好坏方面起着关键作用。其思想是，具有更高累积奖励的推理链更有可能是正确的。

研究人员对该框架进行了广泛的研究。他们将RAP应用于数学推理和逻辑推理等几个具有挑战性的推理问题。这些任务的实际结果表明，RAP优于几种强基准方法。当应用于LLaMA33B时，RAP超越了GPT-4上的CoT，在计划生成方面实现了惊人的33%相对改进。

在推理过程中，LLM通过不断评估最佳推理步骤（行动）巧妙地构建推理树。为此，它使用其世界模型，这与以不同方式使用的相同LLM相同。通过模拟未来结果，LLM估计潜在奖励，并使用此信息更新其对当前推理步骤的信念。通过探索更好的替代方案和改进决策，它改进了推理过程。该框架提供了先进的推理算法，提供直观的可视化和解释，并与任何其他LLM库兼容。

研究人员强调，在对各种具有挑战性的推理问题进行广泛实验后，RAP优于几种基于CoT的当代推理方法。该框架甚至在某些情况下表现优于先进的GPT-4。RAP在设计奖励、状态和行动方面的灵活性展示了其作为灵活的框架处理各种推理任务的潜力。RAP将规划和推理以创新的方式结合在一起，这种方法有可能彻底改变我们对LLM推理的理解方式，为AI系统实现人类级别的战略思考和规划铺平道路。