Press "Enter" to skip to content

需要阅读的生成代理研究论文

需要阅读的生成代理研究论文 四海 第1张

生成型智能体是由斯坦福大学和谷歌研究员在他们的论文《生成型智能体:人类行为的交互式模拟》(Park et al., 2023)中提出的一个术语。在这篇论文中,研究解释了生成型智能体是能够真实模拟人类行为的计算机软件。

在论文中,他们介绍了智能体如何通过实施生成模型,尤其是大型语言模型(LLM),来表现出与人类类似的行为,例如写作、烹饪、讲话、投票、睡觉等。这些智能体通过利用自然语言模型来推断自身、其他智能体和环境。

研究人员构建了一个系统架构,用于存储、综合和运用相关记忆,以使用大型语言模型生成可信行为,从而实现生成型智能体。该系统由三个主要组件构成:

  1. 记忆流。该系统记录智能体的经历,为智能体未来的行为提供参考。
  2. 反思。该系统将经历合成为智能体学习和表现更好的记忆。
  3. 规划。该系统将先前系统的洞察力转化为高级行动计划,并允许智能体对环境做出反应。

这些反思和规划系统与记忆流协同工作,影响着智能体的未来行为。

为了模拟上述系统,研究人员专注于创建受《模拟人生》游戏启发的智能体交互社会。上述架构与ChatGPT相连,并成功展示了他们的沙盒中的25个智能体之间的互动。以下是一天内智能体活动的示例图像。

需要阅读的生成代理研究论文 四海 第2张

研究人员已将创建生成型智能体并在沙盒中模拟它们的整个代码开源,您可以在以下存储库找到它们。

生成型智能体成为一个激动人心的领域,许多基于此进行的研究正在进行中。在本文中,我们将探讨您应该阅读的各种生成型智能体论文。这些是什么?让我们开始吧。

1. 软件开发的交流型智能体

软件开发的交流型智能体论文(Quan et al., 2023)是利用生成型智能体来彻底改革软件开发的一种新方法。研究人员提出的前提是如何通过使用大型语言模型(LLM)的自然语言交流来统一整个软件开发过程。这些任务包括开发代码、生成文档、分析需求等。

研究人员指出,使用LLM生成整个软件过程面临两个主要挑战:幻觉和决策过程中缺乏互相验证。为了解决这些问题,研究人员提出了一种基于聊天的软件开发框架称为ChatDev。

ChatDev框架分为设计、编码、测试和文档编写四个阶段。在每个阶段,ChatDev将建立几个担任不同角色的智能体,例如代码审查员、软件程序员等。为了确保智能体之间的交流顺畅,研究人员开发了一个聊天链,将各个阶段划分为顺序的原子子任务。每个子任务都会实现智能体之间的协作与互动。

ChatDev框架如下图所示。

需要阅读的生成代理研究论文 四海 第3张

研究人员进行了各种实验证明ChatDev框架在软件开发中的表现。使用gpt3.5-turbo-16k,以下是软件统计实验结果。

需要阅读的生成代理研究论文 四海 第4张

以上数字是关于ChatDev生成的软件系统的统计分析指标。例如,最少生成39行代码,最多生成359行代码。研究人员还表明生成的软件系统中有86.66%正常工作。

这是一篇很棒的论文,展示了改变开发者工作方式的潜力。继续阅读论文,了解ChatDev的完整实现。完整的代码也可以在ChatDev仓库中找到。

2. AgentVerse:促进多智能体协作并探索智能体的新兴行为

AgentVerse是一个由Chen等人在2023年提出的框架,通过大型语言模型模拟智能体群体,实现群体内部动态问题解决过程和根据进展调整群体成员。该研究旨在解决自主智能体无法适应和发展问题解决能力的静态群体动力学挑战。

AgentVerse框架试图分为四个步骤,包括:

  1. 专家招募:智能体根据问题和解决方案进行调整
  2. 协作决策:智能体讨论制定解决问题的解决方案和策略
  3. 行动执行:智能体根据决策在环境中执行行动
  4. 评估:评估当前情况和目标。如果目标仍未达标,将返回第一步获得反馈奖励。

AgentVerse的整体结构如下图所示:

需要阅读的生成代理研究论文 四海 第5张

研究人员对该框架进行了实验,并将AgentVerse框架与单个智能体解决方案进行了比较。结果如下图所示:

需要阅读的生成代理研究论文 四海 第6张

AgentVerse框架通常在所有呈现的任务中优于单个智能体。这证明生成智能体在解决问题方面的表现比单个智能体更好。您可以通过他们的仓库尝试该框架。

3. AgentSims:用于大型语言模型评估的开源沙盒

评估LLM能力在社区和领域内仍然是一个未解之谜。评估LLM的能力受到任务的限制、易受攻击的基准和不客观的度量标准的三个因素的限制。为了解决这些问题,Lin等人在2023年提出了一种基于任务的评估方法作为LLM基准。这种方法希望成为LLM作品评估的标准,因为它可以缓解所有提出的问题。为了实现这一目标,研究人员引入了一个名为AgentSims的框架。

AgentSims是一个用于优化LLM评估任务的交互和可视化基础设施的程序。AgentSims的整体目标是为研究人员和专家提供一个平台,以简化任务设计流程并将其用作评估工具。AgentSims的前端如下图所示:

需要阅读的生成代理研究论文 四海 第7张

作为AgentSims的目标是为每个需要更简便的LLM评估的人提供服务,研究人员开发了前端界面,我们可以与用户界面进行交互。您还可以在他们的网站上尝试完整的演示,或访问AgentSims的仓库获取完整的代码。

结论

生成智能体是用于模拟人类行为的LLM的最新方法。由Park等人在2023年进行的最新研究显示了生成智能体的巨大潜力。因此,基于生成智能体的许多研究已经涌现,并开启了许多新的大门。

在本文中,我们讨论了三种不同的生成智能体研究,包括:

  1. 软件开发中的沟通代理论文(Quan et al., 2023
  2. AgentVerse:促进多Agent协作和探索Agent的新兴行为(Chen et al., 2023

3. AgentSims:用于大型语言模型评估的开源沙盒(Lin et al., 2023)  Cornellius Yudha Wijaya 是一名数据科学助理经理和数据作家。在全职工作于Allianz Indonesia期间,他喜欢通过社交媒体和写作媒体分享Python和数据技巧。

Leave a Reply

Your email address will not be published. Required fields are marked *