Press "Enter" to skip to content

一种更有效的方法,用于培训机器应对不确定的现实世界情况

研究人员开发了一种算法,可决定“学生”机器何时应跟随其老师,何时应独立学习

Image: Jose-Luis Olivares/MIT

学习打网球的人可能会聘请一位老师来帮助他们更快地学习。因为这位老师(希望如此)是一位出色的网球选手,有时试图精确模仿老师并不会帮助学生学习。也许老师会高高跃起,灵巧地回球,而学生无法复制,可能会尝试一些其他的动作,直到掌握了回球所需的技巧。

计算机科学家也可以使用“老师”系统来训练另一台机器完成任务。但就像人类学习一样,学生机器面临一个问题,就是知道何时跟随老师,何时自己探索。为此,麻省理工学院和以色列理工学院的研究人员开发了一种算法,可自动独立地确定学生应何时模仿老师(称为模仿学习),何时应通过试错学习(称为强化学习)。

他们的动态方法允许学生在老师太好或不够好时偏离复制老师的方法,但如果这样做可以取得更好的结果和更快的学习,那么在培训过程的后期,学生可以回到跟随老师的方法。

当研究人员在模拟中测试这种方法时,发现他们的试错学习和模仿学习的组合使学生比只使用一种学习方法的方法更有效地学习任务。

这种方法可以帮助研究人员改进在不确定的现实世界情况下部署的机器的培训过程,例如训练一台机器人在其从未见过的建筑内导航。

“试错学习和跟随老师的这种组合非常强大。它赋予了我们的算法解决无法仅使用单一技术解决的非常困难的任务的能力,”这种技术的主要作者、电气工程和计算机科学(EECS)研究生Idan Shenfeld说。

Shenfeld与合作者张伟鸿(EECS研究生)、Technion电气工程和计算机科学助理教授Aviv Tamar和Improbable AI Lab主任、计算机科学和人工智能实验室助理教授Pulkit Agrawal合写了这篇论文。这项研究将在国际机器学习会议上展示。

平衡取舍

许多现有的寻求在模仿学习和强化学习之间取得平衡的方法都是通过 brute force 试错来实现的。研究人员选择两种学习方法的加权组合,运行整个培训过程,然后重复此过程,直到找到最佳平衡点。这种方法效率低下,通常计算成本过高,甚至根本无法实现。

“我们希望的算法是原则性的,涉及尽可能少的调整,并实现高性能——这些原则推动了我们的研究,”Agrawal说。

为了实现这一点,该团队采用了与先前的工作不同的方法来解决这个问题。他们的解决方案涉及训练两个学生:一个使用强化学习和模仿学习的加权组合,另一个只能使用强化学习来学习同样的任务。

主要思想是自动和动态地调整第一个学生的强化学习和模仿学习目标的权重。这就是第二个学生发挥作用的地方。研究人员的算法不断比较这两个学生。如果使用老师的那个学生表现更好,算法会更多地依靠模仿学习来训练学生,但如果仅使用试错法的那个学生开始取得更好的结果,它会更多地关注从强化学习中学习。

通过动态确定哪种方法可以取得更好的结果,该算法是适应性的,并可以在整个培训过程中选择最佳技术。这种创新使它能够比其他不适应性的方法更有效地教导学生,Shenfeld说。

“开发这种算法的主要挑战之一是我们花了一些时间才意识到我们不应该独立地训练这两个学生。很明显,我们需要连接代理以使它们共享信息,然后找到正确的方法来技术地实现这种直觉,” Shenfeld说。

解决难题

为了测试他们的方法,研究人员设置了许多模拟的老师-学生训练实验,例如穿越熔岩迷宫到达网格的另一端。在这种情况下,老师有整个网格的地图,而学生只能看到它前面的一小块。他们的算法在所有测试环境中都实现了几乎完美的成功率,并且比其他方法更快。

为了给他们的算法进行更加困难的测试,他们设置了一个模拟实验,涉及一个具有触觉传感器但没有视觉的机器手,必须将笔重新定位到正确的姿态。教师可以访问笔的实际方向,而学生只能使用触觉传感器来确定笔的方向。

他们的方法优于其他只使用模仿学习或只使用强化学习的方法。

重新定位物体是未来家庭机器人需要执行的众多操作之一,这是Improbable AI实验室正在努力实现的愿景,Agrawal补充道。

教师-学生学习已成功应用于训练机器人在模拟环境中执行复杂的物体操作和运动,并将学习到的技能转移到现实世界。在这些方法中,当学生机器人在现实世界中被部署时,教师可以从模拟中获得特权信息,而学生则没有。例如,当学生机器人仅使用其相机捕获的图像来学习导航到建筑物的详细地图时,教师将知道建筑物的详细地图。

“目前用于教师-学生学习的机器人方法没有考虑到学生模仿教师的无能为力,因此性能受限。这种新方法为构建更优秀的机器人铺平了道路,”Agrawal说。

除了更好的机器人,研究人员认为他们的算法有潜力提高在使用模仿或强化学习的各种应用程序中的性能。例如,大型语言模型(如GPT-4)非常擅长完成各种任务,因此也许可以使用大型模型作为教师,训练一个更小的学生模型在某个特定任务上更“优秀”。研究人员表示,另一个令人兴奋的方向是研究机器和人类从各自的教师那里学习的相似之处和差异。这种分析可能有助于改进学习体验。

“与相关方法相比,这种方法的鲁棒性和它在多个领域中显示出的有前途的结果是非常有趣的,”华盛顿大学助理教授Abhishek Gupta说,他没有参与该研究。“虽然当前的结果主要是在模拟中获得的,但我对将这项工作应用于涉及不同模态(如触觉感知)的记忆和推理问题的未来可能性感到非常兴奋。”

“这项研究提出了一种有趣的方法,可以重复使用强化学习中的先前计算工作。尤其是,他们提出的方法可以利用次优教师策略作为指导,同时避免了以前方法所需的谨慎超参数调度,以平衡模仿教师与优化任务奖励的目标,”Google Brain的高级研究科学家Rishabh Agarwal补充道,他也没有参与这项研究。“希望这项工作能使使用学习策略的强化学习变得不那么麻烦。”

本研究得到了MIT-IBM Watson AI实验室、现代汽车公司、DARPA Machine Common Sense计划和海军研究办公室的部分支持。

Leave a Reply

Your email address will not be published. Required fields are marked *