麻省理工学院的研究人员开发了一项开创性技术,使机器比以前的方法更有效地解决复杂的稳定性-避免问题。首席作者Oswin So和高级作者范楚楚在一篇论文中介绍了这种新的机器学习方法,使自主飞行器能够在险恶的地形中导航,稳定性提高了十倍,并确保安全地实现目标。
稳定性-避免问题是指自主飞行器在试图到达目标时避免与障碍物碰撞或被雷达探测到所面临的冲突。许多现有的人工智能方法无法克服这一挑战,从而妨碍了它们安全地完成任务的能力。
为了解决这个问题,麻省理工学院的研究人员设计了一个两步解决方案。首先,他们将稳定性-避免问题重新构建为一个受约束的优化问题,使代理能够到达并稳定在指定的目标区域内。通过融入约束条件,他们确保代理有效地避免了障碍物。
第二步涉及将受约束的优化问题重构为对偶形式,这是一种可以使用深度强化学习算法解决的数学表示。通过克服现有强化学习方法的局限性,研究人员能够推导出特定于系统的数学表达式,并将其与现有的工程技术相结合。
研究人员进行了各种初始条件的控制实验来测试他们的方法。他们的方法稳定了所有轨迹,同时保持了安全性,优于多种基线方法。在一个受“壮志凌云”电影启发的场景中,研究人员模拟了一架喷气式飞机在地面附近的狭窄走廊中飞行的情况。他们的控制器有效地稳定了喷气式飞机,避免了撞车或失速,并优于其他基线。
这种突破性技术在设计需要安全和稳定性保证的高度动态机器人的控制器(如自主送货无人机)方面具有有前途的应用。它也可以作为更大系统的一部分实施,例如在汽车在雪地路面上打滑时重新确立稳定性,协助司机导航危险条件。
研究人员设想将强化学习提供所需的安全和稳定性保证,以部署在关键任务系统中。这种方法代表了朝着实现这一目标迈出的重要一步。接下来,该团队计划增强该技术,以考虑求解优化时的不确定性,并评估在硬件上部署时的性能,考虑真实世界情况的动态。
未参与研究的专家赞扬麻省理工学院的团队在安全至上的系统中提高了强化学习性能。在复杂场景(包括非线性喷气式飞机模型)中生成安全控制器的能力具有深远的影响。