多智能体强化学习中的紧急交换行为

在我们最近的论文中，我们探讨了深度强化学习（deep RL）智能体群体如何学习微观经济行为，例如生产、消费和商品交易。我们发现，人工智能智能体学会对生产、消费和价格做出经济合理的决策，并对供求变化做出适当反应。智能体群体收敛到反映资源丰富程度的本地价格，并且一些智能体学会在这些区域之间运输商品以“低买高卖”。这项工作通过引入新的社会挑战，推动了更广泛的多智能体强化学习研究议程，使智能体学会如何解决问题。

就多智能体强化学习研究的目标而言，最终要产生能够在人类社会智能的全部范围和复杂性上工作的智能体，迄今为止考虑的领域极不完整。它仍然缺少人类智能突出的重要领域，而人们在这些领域花费了大量时间和精力。经济学是其中之一。我们在这项工作中的目标是为多智能体强化学习研究人员建立基于交易和谈判主题的环境。

经济学使用基于智能体的模型来模拟经济行为。这些基于智能体的模型经常建立在关于智能体应如何行动的经济假设之上。在这项工作中，我们提出了一个多智能体模拟世界，在这个世界中，智能体可以从零开始学习经济行为，这对任何一位微观经济学101的学生来说都是熟悉的：对生产、消费和价格做出决策。但是我们的智能体还必须根据更具身体感知的思维方式做出其他选择。他们必须在物理环境中导航，找到树木采摘水果，找到合作伙伴进行交易。深度强化学习技术的最新进展使得能够创建能够自主学习这些行为的智能体，而无需程序员编码领域知识。

我们的环境被称为水果市场，是一个多人环境，智能体生产和消费两种水果：苹果和香蕉。每个智能体擅长生产一种水果，但对另一种水果有偏好——如果智能体能够学会交换和交易商品，双方都会受益。

水果市场中的示例地图：智能体在地图上移动，从树上采摘苹果和香蕉，相互交易，然后消费他们喜欢的水果。 — **水果市场中的示例地图：**智能体在地图上移动，从树上采摘苹果和香蕉，相互交易，然后消费他们喜欢的水果。

在我们的实验中，我们证明了当前的深度强化学习智能体可以学会交易，并且它们对供求变化的行为与微观经济理论的预测相一致。然后，我们基于这项工作提出了一些使用分析模型很难解决但对于我们的深度强化学习智能体来说很简单的情景。例如，在每种水果在不同地区生长的环境中，我们观察到与水果的本地丰度相关的不同价格区域的出现，以及一些智能体开始学习套利行为，专门在这些地区之间运输水果。

新兴的供求曲线：在这个实验中，我们操纵苹果树（a=x）和香蕉树（b=y）在每个地图位置出现的概率。这些结果复制了初级微观经济学课程中提出的理论供求曲线。 — **新兴的供求曲线：**在这个实验中，我们操纵苹果树（a=x）和香蕉树（b=y）在每个地图位置出现的概率。这些结果复制了初级微观经济学课程中提出的理论供求曲线。

基于智能体的计算经济学领域使用类似的模拟进行经济研究。在这项工作中，我们还证明了最先进的深度强化学习技术可以从自己的经验中灵活地学会在这些环境中行动，而无需内置经济知识。这凸显了强化学习社区在多智能体强化学习和深度强化学习方面的最新进展，并展示了多智能体技术作为推进模拟经济研究的工具的潜力。

作为人工通用智能（AGI）的一条路径，多智能体强化学习研究应该涵盖社会智能的所有关键领域。然而，到目前为止，它尚未纳入传统经济现象，例如贸易、谈判、专业化、消费和生产。本文填补了这一空白，并为进一步研究提供了一个平台。为了在这一领域促进未来的研究，水果市场环境将被包含在下一个发布的“熔炉套件”环境中。