Press "Enter" to skip to content

LLM优于强化学习-遇见SPRING:一种创新的LLM提示框架,旨在实现上下文连贯思考规划和推理能力

LLM优于强化学习-遇见SPRING:一种创新的LLM提示框架,旨在实现上下文连贯思考规划和推理能力 四海 第1张LLM优于强化学习-遇见SPRING:一种创新的LLM提示框架,旨在实现上下文连贯思考规划和推理能力 四海 第2张

SPRING是一种基于LLM的策略,在需要多任务规划和推理的交互环境中胜过强化学习算法。

卡内基梅隆大学、NVIDIA、亚里尔大学和微软的一组研究人员调查了使用大型语言模型(LLM)在游戏的背景下理解和推理人类知识的可能性。他们提出了一种名为SPRING的两阶段方法,其中涉及研究学术论文,然后使用问答(QA)框架来证明所获得的知识。

关于SPRING的更多细节

在第一阶段,作者阅读了Hafner(2021)的原始论文的LaTeX源代码,提取先验知识。他们使用LLM提取相关信息,包括论文中记录的游戏机制和期望的行为。然后,他们使用类似于Wu等人(2023)的QA摘要框架生成基于提取的知识的QA对话,使SPRING能够处理多样的上下文信息。

LLM优于强化学习-遇见SPRING:一种创新的LLM提示框架,旨在实现上下文连贯思考规划和推理能力 四海 第3张

第二阶段专注于使用LLM进行上下文推理,以解决复杂的游戏。他们构建了一个有向无环图(DAG)作为推理模块,其中问题是节点,问题之间的依赖关系表示为边。例如,问题“对于每个动作,需求是否满足?”与问题“前五个动作是什么?”在DAG中有链接,从后者到前者建立了依赖关系。

通过按拓扑顺序遍历DAG,计算每个节点/问题的LLM答案。DAG中的最后一个节点表示关于采取的最佳行动的问题,LLM的答案直接转化为环境行动。

实验和结果

“Crafter Environment”是Hafner(2021)介绍的一个拥有22个成就的开放世界生存游戏,按照深度为7的技术树进行组织。游戏被表示为一个网格世界,具有自上而下的观察和由17个选项组成的离散动作空间。观察还提供有关玩家当前库存状态的信息,包括生命值、食物、水、休息水平和库存物品。

作者将SPRING与Crafter基准测试中的流行RL方法进行了比较。随后,对体系结构的不同组成部分进行了实验和分析,以考察每个部分对LLM的上下文“推理”能力的影响。

LLM优于强化学习-遇见SPRING:一种创新的LLM提示框架,旨在实现上下文连贯思考规划和推理能力 四海 第4张
来源:https://arxiv.org/pdf/2305.15486.pdf

作者将各种RL基准与SPRING和基于Hafner(2021)环境论文的GPT-4的性能进行了比较。SPRING在游戏得分方面超过了以前的最先进(SOTA)方法,相对提高了88%,在奖励方面相对最佳RL方法(Hafner等人,2023)提高了5%。

值得注意的是,SPRING利用了阅读论文的先验知识,并且不需要任何训练步骤,而RL方法通常需要数百万次的训练步骤。

LLM优于强化学习-遇见SPRING:一种创新的LLM提示框架,旨在实现上下文连贯思考规划和推理能力 四海 第5张
来源:https://arxiv.org/pdf/2305.15486.pdf

上图显示了不同任务的完成率的图表,将SPRING与流行的RL基准进行了比较。在技术树较深(深度达到5)且通过随机探索难以达到的成就(如“制作石镐”、“制作石剑”和“收集铁”)方面,SPRING借助先验知识的力量,表现超过RL方法十倍以上。

此外,SPRING在成就“吃牛肉”和“收集饮料”方面表现完美。与此同时,基于模型的RL框架(如Dreamer-V3)在“吃牛肉”方面的解锁率显著较低(低了五倍),这是因为通过随机探索达到移动牛的挑战。值得注意的是,尽管通过随机探索很容易实现,但SPRING不采取“放置石头”这个行动,因为在Hafner(2021)的论文中并未讨论该行动对代理有益。

限制

使用LLM与环境进行交互的一个限制是需要进行物体识别和定位。然而,在提供准确物体信息的环境中,如当代游戏和虚拟现实世界,这个限制是不存在的。虽然预训练的视觉骨干在游戏中表现困难,但在类似真实世界的环境中表现得相当不错。视觉语言模型的最新进展表明了未来在视觉语言理解方面的可靠解决方案的潜力。

结论

总之,SPRING框架展示了语言模型(LLMs)在游戏理解和推理方面的潜力。通过利用学术论文中的先前知识和采用上下文思维链的推理,SPRING在Crafter基准测试中超越了先前的最先进方法,在游戏得分和奖励方面取得了显著的改进。这些结果突显了LLMs在复杂游戏任务中的强大能力,并暗示了未来视觉语言模型的进一步发展可以解决现有的限制,为可靠且具有普适性的解决方案铺平道路。

Leave a Reply

Your email address will not be published. Required fields are marked *