学习无人数据下的鲁棒实时文化传播

在数千年的时间里，人类发现、演化并积累了丰富的文化知识，从航海路线到数学、社会规范到艺术作品。文化传承是指有效地将信息从一个个体传递给另一个个体的遗传过程，是人类能力指数级增长的基础。

我们的代理人（蓝色）模仿并记住了机器人（左侧）和人类（右侧）的演示（红色）。

要观看我们代理人的更多视频，请访问我们的网站。

在这项工作中，我们使用深度强化学习生成能够在测试时进行文化传输的人工代理人。经过训练，我们的代理人可以推断和回忆专家演示的导航知识。这种知识传输是实时进行的，并且可以在以前未见任务的广阔空间中泛化。例如，我们的代理人可以通过观察单个人类演示快速学习新的行为，而无需对人类数据进行训练。

我们的强化学习环境概述。任务是广泛类别的人类技能的导航代表，需要特定的战略决策序列，如烹饪、导航和问题解决。

我们在生成的三维世界中训练和测试我们的代理人，这些世界中包含着色的球形目标，嵌入在充满障碍物的嘈杂地形中。玩家必须按照正确的顺序导航目标，而每一集中目标的顺序都是随机变化的。由于无法猜测顺序，一种简单的探索策略会导致巨大的惩罚。作为文化传输信息的来源，我们提供了一个特权的“机器人”，它总是按照正确的顺序进入目标。

学习无人数据下的鲁棒实时文化传播四海第2张

我们的MEDAL(-ADR)代理人在没有障碍物的世界（顶部）和有障碍物的世界（底部）上优于消融实验结果。

通过消融实验，我们确定了一个最小足够的“入门套件”训练成分，用于实现文化传输，称为MEDAL-ADR。这些组件包括记忆（M）、专家丢失（ED）、对专家的注意偏向（AL）和自动领域随机化（ADR）。我们的代理人在一系列具有挑战性的未见任务中优于消融实验和最先进的方法（ME-AL）。文化传输出人意料地良好地泛化到分布之外，并且代理人在专家离开后仍然可以回忆演示。通过观察代理人的大脑，我们发现了负责编码社会信息和目标状态的引人注目的可解释神经元。

学习无人数据下的鲁棒实时文化传播四海第4张

我们的代理人在训练分布之外具有泛化能力（顶部），并且具有编码社会信息的个别神经元（底部）。

总之，我们提供了一种训练代理人的方法，使其能够在测试过程中进行灵活、高召回率的实时文化传输，而无需在训练过程中使用人类数据。这为文化进化作为一种开发更普遍智能的算法铺平了道路。

本文是由文化普适智能团队共同完成的工作，成员包括：Avishkar Bhoopchand，Bethanie Brownfield，Adrian Collister，Agustin Dal Lago，Ashley Edwards，Richard Everett，Alexandre Fréchette，Edward Hughes，Kory W. Mathewson，Piermaria Mendolicchio，Yanko Oliveira，Julia Pawar，Miruna Pîslar，Alex Platonov，Evan Senter，Sukhdeep Singh，Alexander Zacherl和Lei M. Zhang。

‍

点击此处阅读完整论文。