Press "Enter" to skip to content

一个通用智能体

受到大规模语言建模进展的启发,我们将类似的方法应用于构建一个超越文本输出范围的单一通用代理。这个代理被我们称为Gato,它是一个多模态、多任务、多具身通用策略。相同的网络和权重可以玩Atari游戏、描述图像、聊天、使用真实机械臂堆叠积木等等,根据上下文决定输出文本、关节扭矩、按钮按下或其他令牌。

一个通用智能体 四海 第1张

在Gato的训练阶段,来自不同任务和模态的数据被序列化为一个扁平的令牌序列,进行批处理,并由一个类似于大型语言模型的Transformer神经网络进行处理。损失被掩码,以便Gato只预测动作和文本目标。

一个通用智能体 四海 第2张

在部署Gato时,一个提示(比如演示)被分词,形成初始序列。接下来,环境提供第一个观察结果,该结果也被分词并附加到序列中。Gato通过自回归方式逐个令牌地采样动作向量。

一旦采样了构成动作向量的所有令牌(由环境的动作规范确定),动作将被解码并发送给环境,环境进行一步运行并生成一个新的观察结果。然后重复该过程。模型总是在其上下文窗口的1024个令牌内看到所有先前的观察和动作。

一个通用智能体 四海 第3张

Gato在大量数据集上进行训练,这些数据集包括在模拟和真实环境中的代理经验,以及各种自然语言和图像数据集。这里显示了在性能超过专家分数的预训练Gato模型的任务数量,按领域分组。

一个通用智能体 四海 第4张

下面的图片还展示了具有相同权重的预训练Gato模型可以进行图像描述、参与互动对话和控制机械臂等多项任务。

一个通用智能体 四海 第5张

一个通用智能体 四海 第6张

一个通用智能体 四海 第7张

Leave a Reply

Your email address will not be published. Required fields are marked *