谷歌AI提出了一个名为Universal Policy (UniPi)的方案，旨在解决环境多样性和奖励规范化的挑战

谷歌AI提出了一个名为Universal Policy (UniPi)的方案，旨在解决环境多样性和奖励规范化的挑战四海第1张

无论所从事的行业如何，人工智能（AI）和机器学习（ML）技术一直试图改善人们的生活质量。近年来，AI的一个主要应用是设计和创建能够在各个领域完成决策任务的代理人。例如，像GPT-3和PaLM这样的大型语言模型以及像CLIP和Flamingo这样的视觉模型在各自领域的零-shot学习方面表现出色。然而，训练这种代理人存在一个主要缺点。这是因为这些代理人在训练过程中表现出了环境多样性的固有属性。简单来说，为不同的任务或环境进行训练需要使用各种状态空间，这有时会妨碍模型在领域之间的学习、知识传递和泛化能力。此外，对于基于强化学习（RL）的任务，创建特定任务在各种环境中的奖励函数变得困难。

为解决这个问题，来自Google Research的团队研究了这些工具是否可以用于构建更通用的代理人。在他们的研究中，团队特别关注了文本引导的图像合成，其中将以文本形式呈现的期望目标输入给规划器，规划器创建一系列代表预期行动的帧序列，然后从生成的视频中提取控制行动。因此，谷歌团队在最近的论文中提出了一种名为“通过文本引导的视频生成学习通用策略”的UniPi策略，解决了环境多样性和奖励规范化方面的挑战。UniPi策略使用文本作为任务描述的通用接口，使用视频作为在各种情况下传达行动和观察行为的通用接口。具体来说，团队将视频生成器设计为一个规划器，该规划器接受当前图像帧和陈述当前目标的文本提示作为输入，生成以图像序列或视频形式的轨迹。然后，将生成的视频输入到一个逆动力学模型中，该模型提取执行的底层动作。这种方法的独特之处在于它允许利用语言和视频的通用性在不同环境中进行目标和任务的泛化。

在过去的几年中，在文本引导的图像合成领域取得了重大进展，产生了具有生成复杂图像能力的模型。这进一步激发了团队选择这个作为他们的决策任务。谷歌研究人员提出的UniPi方法主要包括四个组成部分：通过平铺实现轨迹一致性、分层规划、灵活的行为调节和任务特定的行动适应，以下分别进行详细描述：

1. 通过平铺实现轨迹一致性：

现有的文本到视频方法通常会产生具有不断变化的基础环境状态的视频。然而，确保环境在所有时间戳上保持恒定对于构建准确的轨迹规划器至关重要。因此，为了在条件视频合成中保持环境一致性，研究人员在合成视频的每一帧中提供观察到的图像，同时去噪。为了在时间上保留底层环境状态，UniPi直接将每个噪声中间帧与条件观察到的图像在采样步骤上进行连接。

2. 分层规划：

在复杂和复杂的环境中进行计划时，生成所有必要的动作很困难，这需要很多时间和措施。规划方法通过利用自然层次结构在较小的空间中创建粗略计划，并将其改进为更详细的计划来克服这个问题。同样，在视频生成过程中，UniPi首先在粗粒度级别上创建演示所需代理行为的视频，然后通过填补缺失的帧并使其更流畅来改进视频的逼真程度。这是通过使用一系列步骤的层次结构来完成的，每个步骤都会提高视频质量，直到达到所需的详细级别。

3. 灵活的行为调节：

在为较小的目标规划一系列动作时，可以轻松地包括外部约束以修改生成的计划。这可以通过结合反映计划属性的期望限制的概率先验来实现。先验可以使用学习的分类器或特定图像上的Dirac delta分布来描述，以引导计划朝特定状态发展。这种方法也与UniPi兼容。研究人员使用视频扩散算法训练了文本条件视频生成模型。该算法包括来自Text-To-Text Transfer Transformer（T5）的编码预训练语言特征。

4. 任务特定的行动适应：

一个小的反向动力学模型被训练，用一组合成的视频将视频帧转化为低级控制动作。这个模型是独立于规划器的，并且可以在由模拟器生成的一个独立的较小数据集上进行训练。反向动力学模型接收输入帧和当前目标的文本描述，合成图像帧，并生成一系列动作来预测未来的步骤。然后，一个代理执行这些低级控制动作，使用闭环控制。

总结一下，谷歌的研究人员通过展示使用基于文本的视频生成来表示能够实现组合泛化、多任务学习和现实世界转移的策略的价值，做出了令人印象深刻的贡献。研究人员在一些新颖的基于语言的任务上评估了他们的方法，并得出结论：与其他基线模型（如Transformer BC、Trajectory Transformer和Diffuser）相比，UniPi在已知和未知的语言提示组合上都具有很好的泛化能力。这些令人鼓舞的发现突显了利用生成模型和大量可用数据作为创建多功能决策系统的有价值资源的潜力。