Press "Enter" to skip to content

这篇AI论文介绍了视频语言规划(VLP):一种新颖的人工智能方法,它由具有视觉语言模型和文本到视频动态的树搜索过程组成

“`html

随着人工智能应用的不断进步,生成模型正在快速发展。智能与物理环境互动的理念是讨论的焦点,它突出了在两个不同层次上进行规划的重要性:底层基础动力学和高层语义抽象。这两层对于机器人系统能够正确控制并在实际世界中进行活动非常关键。

将规划问题分为这两层的观念早已被机器人学领域认可。因此,已经开发了许多策略,包括将运动与任务规划相结合,并确定复杂操作工作的控制规则。这些方法旨在生成考虑工作目标和实际环境动力学的计划。谈到LLMs,这些模型可以使用符号式作业描述创建高层计划,但在实施这些计划时却遇到麻烦。当涉及到任务的更具体部分,例如形状、物理和限制时,它们无法进行推理。

在最近的研究中,来自Google Deepmind、MIT和UC Berkeley的研究团队提出了合并文本到视频和视觉语言模型(VLMs)来克服这些缺点。通过结合两个模型的优势,这种整合被称为视频语言规划(VLP)。VLP旨在为长时间跨度和复杂活动的视觉规划提供便利。该方法运用了在互联网数据上进行了广泛预训练的大型生成模型的最新发展。VLP的主要目标是使在语言和视觉领域具备长时间行动序列和理解要求的任务更容易规划。这些任务可以包括从简单的物体重新排列到复杂的机器人系统操作等任何内容。

VLP的基础是一种树搜索过程,它有两个主要部分,如下所示。

  1. 视觉语言模型:这些模型既扮演价值函数和策略的角色,又支持计划的创建和评估。在理解任务描述和可用视觉信息后,它们能够建议下一步行动以完成工作。
  1. 文本到视频模型:这些模型作为动力学模型,能够预测某些决策的影响。它们根据视觉语言模型提出的行为建议预测可能的结果。

VLP使用长时间跨度任务指令和当前视觉观察作为主要输入。VLP生成了完整而详细的视频计划,结合语言和视觉特征,提供逐步完成最终目标的指导。它在书面工作描述和视觉理解之间搭建了良好的桥梁。

VLP可以执行各种活动,包括双臂熟练操作和多物体重新排列。这种灵活性展示了该方法的广泛应用范围。真实的机器人系统可以实现生成的视频蓝图。目标条件规则促进了虚拟计划转化为实际机器人行为。这些规则使机器人能够根据视频计划的每个中间帧来逐步执行任务。

与之前的技术相比,使用VLP的实验显示了长时间跨度任务成功率的显著提高。这些调查已在使用三个不同硬件平台的真实机器人和模拟环境中进行。

“`

Leave a Reply

Your email address will not be published. Required fields are marked *