“Salesforce AI研究人员介绍了LLM增强自主代理的演进以及创新的BOLAA策略”

“Salesforce AI研究人员介绍了LLM增强自主代理的演进以及创新的BOLAA策略” 四海第1张

最近的大型语言模型（LLM）的成就鼓励了对使用LLM处理各种复杂任务的新研究，其中以LLM增强的自主代理（LAA）引起了最大的关注。通过将LLM的智能扩展到顺序动作执行，LAA在与环境的互动和处理具有挑战性的问题时显示出卓越性能，通过收集数据来解决问题。BabyAGI1提出了一个使用OpenAI LLM2生成、优先排序和执行任务的基于人工智能的任务管理系统。另一个备受欢迎的开源LAA框架是AutoGPT3。

ReAct是一种最近提出的LAA技术，它在生成后续动作之前与环境进行交互。一种用于创建LAA的当前开源框架称为Langchain4。由于原始探测的原因，LAA还没有得到深入研究。最佳代理架构尚未确定。为了使LLM通过上下文学习学会创建下一个动作，ReAct用已经预定义的示例刺激代理。此外，ReAct认为，代理在执行动作之前应该进行中间思考。ReWOO为LAA引入了额外的规划过程。

Langchain将ReAct代理与零-shot工具使用能力结合起来。最佳代理设计应与任务和相应的LLM骨干相一致，这在先前的研究中没有得到很好的解决。其次，还需要完成有关当前LLM在LAA中的有效性的知识。早期的论文只比较了少数几个LLM骨干的性能。ReAct将PaLM用作主要的LLM。ReWOO使用OpenAI text-DaVinci-003模型进行代理规划和指令定制。对于通用的网络代理，MIND2Web将Flan-T5与OpenAI GPT3.5/4进行比较。

然而，只有少数最近的研究彻底比较了使用不同预训练的LLM的LAA的效果。最近的一篇相对较新的文章刚刚发布了用于评估LLM作为代理的基准。然而，他们必须同时考虑代理架构和它们的LLM骨干。通过从效果和效率的角度选择最佳的LLM，LAA研究得以推进。第三，随着活动变得更加复杂，许多代理可能需要协调。最近，ReWOO发现将推理与观察分离可以提高LAA的效果。

在这项研究中，Salesforce Research的研究人员提出了一个观点，随着任务复杂性的增加，尤其是在开放领域的情况下，最好协调多个代理来执行单个任务。例如，在在线导航任务中，他们可以使用点击代理与可点击按钮进行交互，同时请求搜索代理查找其他资源。然而，很少有论文探讨协同和协调多个个体的效果。本报告建议对LAA性能进行广泛的比较分析，以填补这些研究空白。他们进一步深入研究了LLM骨干和LAA代理架构。

他们根据已有的设置创建代理基准，评估了基于不同LLM骨干的不同代理架构的功能。因为他们代理基准中的任务与多个任务复杂性级别相关联，所以可以根据任务复杂性来检查代理的性能。这些代理架构被创建来彻底验证当前的设计决策。为了实现多个协作LAA之间的选择和通信，他们提出了一种名为BOLAA5的独特LAA架构，该架构在众多合作代理之上具有控制器模块。

本文的贡献如下：

• 开发了六种不同的LAA代理架构。为了支持LAA的设计直觉，它们融合了从提示、自我思考和规划中得出的直觉，并将它们与多个骨干LLM集成。他们还创建了BOLAA来实现多代理策略协调，提高单个代理与行动的互动能力。

• 他们对知识推理任务和决策制定在线导航的环境进行了全面研究。他们将性能作为最终稀疏奖励和中间回忆提供，从而为最佳LAA和适当的LLM选择提供了定性建议。

• 与其他LAA设计相比，BOLAA在WebShop环境中始终表现出最佳性能。他们的研究结果凸显了开发专门的代理来共同解决复杂问题的重要性，这与开发具有强大泛化能力的大型LLM一样重要。