人工智能框架在新环境中通过人类引导，承诺更快的机器人学习

在智能家居的未来时代，拥有一个能简化家务任务的机器人将不再是稀罕事。然而，当这些自动助手无法执行简单任务时，可能会产生沮丧感。麻省理工学院（MIT）电气工程和计算机科学系的学者彭安迪（Andi Peng）及其团队正在努力改善机器人的学习曲线。

彭安迪和她的跨学科研究团队开创了一种人机互动框架。该系统的亮点是它能够生成反事实叙事，以准确定位机器人成功执行任务所需的变化。

举个例子，当机器人难以识别一个特别绘制的杯子时，系统会提供其他情境，机器人在这些情境下可能会成功，比如杯子是更常见的颜色。这些反事实解释与人类反馈相结合，简化了为机器人微调生成新数据的过程。

彭安迪解释说：“微调是指对已经熟练掌握一项任务的现有机器学习模型进行优化，使其能够执行第二个类似任务的过程。”

效率和性能的飞跃

在测试中，该系统表现出令人印象深刻的结果。通过这种方法训练的机器人展示出快速学习能力，同时减少了人类教师的时间投入。如果成功在更大范围内实施，这种创新框架可以帮助机器人迅速适应新环境，减少用户需要具备先进技术知识的需求。这项技术可能是解锁能够高效辅助老年人或残疾人的多功能机器人的关键。

彭安迪认为：“最终目标是让机器人能够以类似人类的抽象水平学习和工作。”

机器人学习的主要障碍是“分布偏移”（distribution shift），这个术语用来解释当机器人在训练期间没有接触到的物体或空间时所遇到的情况。研究人员为了解决这个问题，采用了一种称为“模仿学习”的方法。但它也有局限性。

彭安迪说：“想象一下，让机器人为了拿起任何一个杯子而演示30000个杯子。相反，我更喜欢仅仅演示一个杯子，教机器人理解它可以拿起任何颜色的杯子。”

为了应对这个问题，团队的系统确定了物体任务中哪些属性是必要的（如杯子的形状），哪些属性不是必要的（如杯子的颜色）。凭借这些信息，它生成了合成数据，改变了“非必要”视觉元素，从而优化了机器人的学习过程。

为了评估这个框架的效果，研究人员进行了一项涉及人类用户的测试。参与者被问及系统的反事实解释是否增强了他们对机器人任务表现的理解。

彭安迪说：“我们发现人类天生擅长这种反事实推理。正是这种反事实元素使我们能够将人类推理无缝转化为机器人逻辑。”

在多次模拟中，机器人始终以他们的方法更快地学习，超过了其他技术，需要更少的用户演示。

展望未来，团队计划在实际机器人上实施这个框架，并通过生成式机器学习模型缩短数据生成时间。这种突破性的方法有潜力改变机器人学习的轨迹，为机器人在我们的日常生活中和谐共存的未来铺平道路。