Press "Enter" to skip to content

麻省理工学院的最新机器学习研究提出了用于分层规划的组合基础模型(HiP):将语言、视觉和行动整合到长周期任务解决方案中

麻省理工学院的最新机器学习研究提出了用于分层规划的组合基础模型(HiP):将语言、视觉和行动整合到长周期任务解决方案中 四海 第1张麻省理工学院的最新机器学习研究提出了用于分层规划的组合基础模型(HiP):将语言、视觉和行动整合到长周期任务解决方案中 四海 第2张

想象一下在陌生的家中准备一杯茶的挑战。完成这个任务的一个高效策略是在几个层次上进行层次化推理,包括一个抽象层次(例如,加热茶所需的高层步骤),一个具体的几何层次(例如,他们应该如何在厨房中移动)和一个控制层次(例如,他们应该如何移动关节来举起杯子)。搜索茶壶的抽象计划在几何层面上也必须是可行的,并且在他们能够执行的行动给定的情况下是可执行的。这就是为什么每个层次上的推理相互一致是至关重要的。在这项研究中,他们调查了能够使用层次化推理的独特长期任务解决机器人的发展。

现在,大型”基础模型”已经在数学推理、计算机视觉和自然语言处理等问题上取得了领先地位。在这种范式下,创建一个能够解决独特的长期决策问题的”基础模型”是一个备受关注的问题。在之前的几项研究中,收集了匹配的视觉、语言和动作数据,并训练了一个单一的神经网络来处理长期任务。然而,扩展耦合的视觉、语言和动作数据收集是昂贵且具有挑战性的。另一方面,较早的研究线路使用特定任务的机器人演示来改进大型语言模型(LLM)在视觉和语言输入上的性能。这是一个问题,因为与互联网上丰富的材料相比,耦合视觉和语言的机器人的示例很难找到,而且编制也很昂贵。

此外,由于模型权重没有开源,目前很难对高性能的语言模型(如GPT3.5/4和PaLM)进行微调。基础模型的主要特点是,相较于从头学习工作或领域,它需要较少的数据来解决新的问题或适应新的环境。在这项工作中,他们寻求一种可扩展的替代方法,用于收集三种模态的配对数据,以构建用于长期规划的基础模型。在解决新的规划任务时,他们能否在仍然相对有效的前提下做到这一点呢?

来自Improbable AI Lab、MIT-IBM Watson AI Lab和麻省理工学院的研究人员建议使用组合式基础模型进行层次化规划(HiP),这是一个由许多在语言、视觉和动作数据上独立训练的专家模型组成的基础模型。由于这些模型是分别引入的,构建基础模型所需的数据量显著减少(图1)。HiP使用一个大型语言模型从抽象语言指令中发现一系列子任务(即规划)。然后,HiP使用一个大型视频扩散模型来收集有关环境的几何和物理信息,以形成一个更复杂的以观察为基础的轨迹规划。最后,HiP使用一个已经训练过的大型逆模型将一系列自我中心的图片转化为动作。

麻省理工学院的最新机器学习研究提出了用于分层规划的组合基础模型(HiP):将语言、视觉和行动整合到长周期任务解决方案中 四海 第3张

图1:如上所示,组合式基础模型用于层次化规划。HiP使用三个模型:一个任务模型(由LLM表示)生成一个抽象计划,一个视觉模型(由视频模型表示)生成一个图像轨迹规划;以及一个自我中心的动作模型,从图像轨迹中推断出动作。

不需要收集昂贵的跨模态配对决策数据,组合式设计选择使得不同层次的模型可以在层次结构的不同级别上进行推理,并共同做出专业的结论。三个分别训练的模型可能会产生冲突的结果,这可能导致整个规划过程失败。例如,在每个阶段选择具有最高可能性的输出是建立模型的一种简单方法。计划中的一步,例如在柜子里找茶壶,可能在一个模型下有很高的几率,但在另一个模型下可能有零几率,例如如果房子里没有柜子的话。因此,重要的是采样一种策略,该策略能够在所有专家模型中共同最大化可能性。

他们提供了一种迭代改进技术,以确保一致性,利用下游模型的反馈来开发跨多个模型的一致计划。语言模型的生成过程的输出分布包含了每个阶段的当前状态的表示所条件化的似然估计器的中间反馈。同样,动作模型的中间输入改善了开发过程中每个阶段的视频创作。这种迭代改进过程促进了多模型间的共识,创建了既符合目标又在现有状态和代理的基础上可执行的分层一致计划。他们提出的迭代改进方法不需要进行大量模型微调,从而使训练具有计算效率。

此外,他们不需要知道模型的权重,他们的策略适用于所有提供输入和输出API访问的模型。总之,他们提供了一个基于在各种互联网和自我中心机器人数据模态上独立获取的基础模型的组合来创建长程规划的层次规划的基础模型。在三个长程桌面操作情况下,他们展示了有希望的结果。

Leave a Reply

Your email address will not be published. Required fields are marked *