加州大学伯克利分校的研究人员推出Dynalang：一种人工智能代理，它学习多模态世界模型以预测未来的文本和图像表示，并从想象的模型展开中学习行动

加州大学伯克利分校的研究人员推出Dynalang：一种人工智能代理，它学习多模态世界模型以预测未来的文本和图像表示，并从想象的模型展开中学习行动四海第1张

长期以来，人工智能的目标之一是创建能够与人们在现实世界中进行有机交流的机器人。现今的具身代理人可以执行简单的低级命令，例如“拿起蓝色的积木”或“经过电梯然后向右转”。然而，交互式代理人需要能够理解人们在“此时此地”之外使用语言的全部方式，包括知识传递（例如，“左上角的按钮关闭电视”），情境信息（例如，“我们没有牛奶了”）和协调（例如，“我已经清理过客厅了”）。

大部分孩子在书籍中阅读或从他人那里听到的内容都传达了关于世界的信息，无论是它如何运作还是它目前的状态。他们如何使代理人能够说其他语言？强化学习（RL）是一种教授以语言为条件的代理人解决问题的技术。然而，目前大多数使用的语言条件的RL技术是通过从任务特定的指令中产生动作来训练的，例如，通过将像“拿起蓝色的积木”这样的目标描述作为输入并生成一系列运动命令。直接将语言映射到最佳行动方案在考虑到自然语言在实际世界中扮演的各种角色时，提供了一个困难的学习挑战。

如果正在进行的工作是清理，代理人应该通过进行下一个清理步骤来回答，但如果是用餐，代理人应该收拾碗。以“我把碗放好了”为例。当语言不讨论任务时，语言与代理人最佳行动方案之间只有弱相关性。因此，仅通过将语言映射到活动的任务奖励可能是学习信号更好，以便学会使用各种语言输入完成任务。相反，他们建议，语言对代理人的一个统一功能是帮助进行未来预测。短语“我把碗放好了”可以使代理人更准确地预测未来的观察结果（例如，如果它打开柜子，它会看到碗）。

从这个意义上说，孩子们接触到的大部分语言可能根植于视觉经验。代理人可以使用先前的信息来预测环境变化，例如“扳手可以用来拧紧螺母”。代理人可以通过说“包裹在外面”来预期观察结果。这种范式还将常见的按照指令实践与预测术语结合起来：指令帮助代理人期待奖励。他们认为，预测未来表示为代理人提供了丰富的学习信号，有助于他们理解语言以及它如何与外部世界交互，类似于下一个令牌预测使语言模型能够构建内部对世界知识的表示。

加州大学伯克利分校的研究人员引入了Dynalang，一种通过在线经验获取世界的语言和视觉模型，并利用该模型理解如何行为的代理。Dynalang将使用该模型的行为学习（具有任务激励的强化学习）与使用语言模型（具有预测目标的监督学习）的世界建模分开。世界模型接收视觉和文本输入作为观察模态，这些输入被压缩为潜在空间。随着代理人与周围环境的互动，使用在线收集的数据，它训练世界模型预测未来的潜在表示。使用世界模型的潜在表示作为输入，他们训练策略采取决策以最大化任务奖励。

由于世界建模与行动是不同的，Dynalang可以在没有活动或任务奖励的情况下预先训练单模态（仅文本或仅视频数据）。此外，语言生成的框架可以统一：代理人的感知可以影响其语言模型（即其关于未来令牌的预测），从而使其能够通过在动作空间中生成语言来与环境进行交流。他们在各种语言环境中测试了Dynalang的性能。Dynalang学会了利用关于未来观察结果、环境动态和修正的语言线索，在多任务清洁房屋的环境中更快地完成家务。在Messenger基准测试中，Dynalang通过阅读游戏手册来匹配游戏的最难关卡，优于任务特定的架构。他们展示了Dynalang可以在视觉和语言复杂的环境中掌握指令，在视觉语言导航中超越了最先进的强化学习算法和任务特定的架构。

以下是他们所做的贡献：

• 他们提出了Dynalang，一种使用未来预测来连接语言与视觉体验的代理。

• 他们展示了Dynalang通过学习理解各种类型的语言来应对各种任务，优于最先进的RL算法和任务特定设计。

• 他们证明了Dynalang的构想打开了新的可能性，包括在单一模型中将语言创作与纯文本预训练相结合，而无需行动或任务激励。