斯坦福大学的研究人员提出了“EquivAct”：一种在不同比例和方向上推广任务的机器人学习的突破性技术

如果所涉及的物体具有不同的视觉或物理属性，人类可以通过几个示例来解决操纵任务的多种变体，并学习完成任务的方法。为了使学到的策略适用于不同的物体比例、方向和视觉外观，现有的机器人学习研究仍然需要大量的数据增强。然而，尽管有这些改进，对于未知变体的泛化并不保证。

斯坦福大学的一篇新论文研究了零样本学习的视觉运动策略挑战，该策略可能以少量样本轨迹作为输入，来自单个源操作场景，并推广到具有未知对象视觉外观、大小和姿势的场景。特别重要的是学习如何处理可变形和关节化物体，例如衣物或盒子，以及刚性物体，例如拾放。为了确保学到的策略对不同的物体放置、方向和比例都具有鲁棒性，建议将等变性融入到视觉物体表示和策略架构中。

他们提出了一种新的视觉运动策略学习方法——EquivAct，可以从单个源操作场景的演示中学习3D机器人操作任务的闭环策略，并将其零样本推广到未知场景。学到的策略以机器人末端执行器姿态和环境的部分点云作为输入，以机器人的动作（例如末端执行器速度和夹持器命令）作为输出。与大多数先前的工作相比，研究人员在其神经网络中使用了SIM(3)-等变网络架构。这意味着当输入的点云和末端执行器位置被平移和旋转时，输出的末端执行器速度会相应调整。由于他们的策略架构具有等变性，它可以从较小规模的桌面活动的演示中学习，然后零样本推广到包括具有不同的视觉和物理外观的演示对象的移动操作任务中。

这种方法分为两个部分：学习表示和策略。为了训练代理的表示，团队首先提供了一组使用与目标任务对象相同的相机和设置捕获的合成点云，但具有不同的随机非均匀尺度。他们以这种方式补充训练数据，以适应非均匀缩放，即使所建议的架构对于均匀缩放是等变的。模拟数据不必显示机器人活动，甚至不必演示实际任务。为了从场景点云中提取全局和局部特征，他们使用模拟数据训练了一个SIM(3)-等变编码器-解码器架构。在训练过程中，对配对的点云输入使用对比学习损失，以将相关物体部分的局部特征组合在一起。在策略学习阶段，假设之前验证的任务轨迹的样本是有限的。

研究人员使用数据训练了一个闭环策略，给定场景的部分点云作为输入，利用先前学习的编码器从点云中提取全局和局部特征，然后将这些特征馈入一个SIM(3)-等变行动预测网络，以预测末端执行器的移动。除了以前的工作中的标准刚性物体操作任务外，这种方法还在更复杂的任务领域中进行了评估，包括舒适被子的折叠、容器的覆盖和盒子的封口。

团队展示了许多人类示例，其中一个人为每个活动操作桌面上的一个物体。在演示了该方法后，他们在移动操作平台上进行了评估，机器人需要在一个更大的尺度上解决同一个问题。研究结果表明，该方法能够从源操作演示中学习闭环机器人操作策略，并在一次运行中执行目标任务，而无需进行任何微调。进一步证明该方法比这种方法更有效，并且依赖于对超出分布范围的物体姿势和比例的显著增强。它还优于不利用等变性的作品。