探索思维引导树：AI如何通过搜索学习推理四海第1张

关键点

一篇新论文提出了一个“思维树”框架，以实现更加有意识的问题解决
将推理过程表示为对可能“思维”的搜索
使用LLM本身生成和评估这些思维
采用经典的搜索算法来指导探索

介绍

最近，像GPT-3这样的大型语言模型(LLM)在数学推理和常识知识等领域展示了令人印象深刻的能力。然而，它们的基本文本生成方法 – 从左到右，逐个标记 – 可能限制了战略规划和探索。该论文证明了这种方法在LLM解决数学难题和创意写作等挑战上显著提高了其问题解决能力。

讨论

最近的一篇论文，由Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao, Karthik Narasimhan撰写的Tree of Thoughts: Deliberate Problem Solving with Large Language Models提出了一个名为“思维树”(ToT)的新框架，以增强GPT-3和GPT-4等大型语言模型(LLM)的问题解决能力。目前，LLM在生成文本时只限于从左到右的标记级别决策，这在需要更多战略规划和探索的任务中会有所不足。

思维树将问题解决过程表示为对一棵树的搜索，其中每个节点都是一个“思维” – 一个代表中间推理步骤的连贯文本块。这使得LLM能够探索多个推理路径，并评估不同思维对解决问题的进展。具体而言，该框架包括以下内容：

根据任务结构将问题分解为连贯的思维步骤。
使用LLM在每个步骤中生成多个思维候选项，可以独立生成，也可以在先前的思维条件下顺序生成。
通过评估估值提示来评估不同状态(部分解决方案)的前景。
使用广度优先搜索或深度优先搜索等经典搜索算法在树上进行搜索，使用LLM的估值来指导探索和剪枝。

这种有意识的搜索使得LLM能够向前看，回溯，并在需要时做出更全局的选择。这个模块化的框架是模型无关的，可以灵活地调整其组件，如思维大小、生成、评估和搜索，以适应问题结构。

作者在三个新颖任务上演示了ToT的效果 – 24点游戏、创意写作和迷你填字游戏。在所有情况下，ToT都显著提升了GPT-4在标准提示基线上的问题解决性能。例如，在24点游戏中，成功率从链式思维提示的4%提高到了ToT的74%。

总体而言，ToT提供了一种将经典人工智能中的符号规划和搜索方法与现代LLM相结合的方法。基于语言的思维和思考的可解释性也为更好的人机对齐提供了机会。作者将其提出作为开发LLM更一般的问题解决能力的一种激动人心的新方向。

研究问答

Tree of Thoughts方法与其他将符号规划或搜索与神经模型结合的方法（如NeuroLogic解码或LLM+P框架）相比如何？

ToT框架的不同之处在于它使用LLM本身在搜索过程中提供启发式指导，而不是依赖于单独的经典规划器（LLM+P）或硬编码的启发式算法（NeuroLogic）。基于语言的思维表示也比符号规划语言更灵活。然而，ToT尚未实现LLM+P演示的LLM和规划器组件之间的紧密集成和双向通信水平。

Tree of Thoughts方法是否可以应用于自然语言任务，如对话对话或故事生成，而不仅仅是受限的推理任务？

尽管当前论文专注于推理任务，但将可能的延续表示为可以进行深思熟虑的想法的一般框架似乎适用于更少受限的生成问题。对于对话，思维可以是候选的下一个话语，而对于故事，它们可以是情节点或角色行动。关键挑战将是定义连贯的思维步骤和开发有效的评估提示。

这项研究的创新之处是将语言模型的推理视为对思想树的搜索，而不仅仅是从左到右的令牌生成。这样可以进行更加有意识的规划，探索替代方案，并进行全局的前瞻和回溯。将思想表示为连贯的语义单位与先前的搜索方法相比也是创新的。

这项研究的更广泛影响是，它可以显著增强LLM的问题解决和推理能力，使它们能够在编码、数据分析、机器人等更复杂的实际应用中使用。它还使模型决策更具可解释性。将经典搜索方法与神经模型结合起来是一个令人兴奋的方向。

如果有的话，这项研究的一些潜在问题或疏忽是，所探索的任务仍然相对简单。尚不清楚这种方法是否适用于更加开放的问题。搜索过程可能比标准采样产生更高的计算成本。目前对于修剪次优分支的启发式方法仍然存在不完善之处。

这项研究的逻辑下一步研究步骤是，探索在更复杂的规划和决策任务上使用ToT，将其与外部知识检索相结合，并研究是否可以通过元学习或强化学习等方法更有效地学习变体，而不仅仅依赖于预训练的LLM。分析思想大小、搜索预算和性能之间的相互作用也是一个未解决的问题。

主要观点

思想树范式展示了如何将经典搜索技术与现代神经网络模型结合。
允许LLM探索替代的推理路径使其决策更具可解释性。
这个研究方向可以增强LLM在复杂实际规划和分析任务中的适用性。
主要下一步是将该方法扩展到较少约束的问题，提高搜索效率，并研究如何学习这样的技能。
总的来说，思想树的有意识和语义推理为人工智能代理提供了一种令人兴奋的新能力。

Matthew Mayo （@mattmayo13）是一位数据科学家，也是VoAGI的主编，这是一家重要的在线数据科学和机器学习资源。他的兴趣包括自然语言处理、算法设计与优化、无监督学习、神经网络和机器学习的自动化方法。Matthew拥有计算机科学硕士学位和数据挖掘研究生文凭。他可以通过editor1 at VoAGI[dot]com联系到。