Press "Enter" to skip to content

迈向安全可靠的飞行自动驾驶的一步

一种基于人工智能的控制自主机器人的新方法,能够满足安全和稳定性这两个常常相互矛盾的目标

MIT researchers developed a machine-learning technique that can autonomously drive a car or fly a plane through a very difficult “stabilize-avoid” scenario, in which the vehicle must stabilize its trajectory to arrive at and stay within some goal region, while avoiding obstacles.

在电影《壮志凌云:独行侠》中,由汤姆·克鲁斯扮演的独行侠被指派培训年轻飞行员完成一个似乎不可能的任务——将他们的战斗机深入岩石峡谷,保持低空飞行,不被雷达探测到,然后以极端的角度迅速爬升出峡谷,避开岩石壁。剧透:在独行侠的帮助下,这些人类飞行员完成了任务。

然而,对于机器来说,完成同样的任务会很困难。例如,对于一架自主飞行器来说,通往目标最直接的路径与机器需要避免与峡谷壁碰撞或保持不被探测到之间存在冲突。许多现有的人工智能方法无法克服这种称为稳定避免问题的冲突,因此无法安全地达成目标。

麻省理工学院的研究人员开发出了一种可以比其他方法更好地解决复杂的稳定避免问题的技术。他们的机器学习方法在提供了十倍的稳定性,即代理能够到达并保持其目标区域内的稳定性,同时能够匹配或超过现有方法的安全性。

在一项可以让独行侠自豪的实验中,他们的技术在不碰撞地面的情况下有效地驾驶了一架模拟喷气式飞机通过了一个狭窄的走廊。

“这是一个长期存在的挑战。很多人都看过它,但不知道如何处理这样高维度和复杂的动态系统,”航空航天学威尔逊助理教授,信息与决策系统实验室(LIDS)成员以及这项技术的资深作者范楚楚说。

范教授与研究生首席作者Oswin So一起发表了一篇有关这项技术的论文,并将在机器人科学和系统会议上进行展示。

稳定避免挑战

许多方法通过简化系统来解决复杂的稳定避免问题,以便用简单的数学方法解决,但简化结果通常无法应对真实的动态系统。

更有效的技术使用强化学习,这是一种机器学习方法,其中代理通过试错学习,对能够使其更接近目标的行为进行奖励。但是,这里实际上有两个目标——保持稳定和避免障碍物——找到正确的平衡是很繁琐的。

麻省理工学院的研究人员将问题分解为两个步骤。首先,他们将稳定避免问题作为一个受限制的优化问题进行重新定义。在这种设置中,解决优化问题使代理能够达到并稳定到其目标,这意味着它保持在某个区域内。通过应用约束条件,他们确保代理避免障碍物。

然后,对于第二步,他们将受限制的优化问题重新定义为数学表示形式,称为外延形式,并使用深度强化学习算法进行解决。外延形式使他们能够绕过其他方法在使用强化学习时面临的困难。

“但是深度强化学习并不是设计用来解决优化问题的外延形式,因此我们不能只是将其插入到我们的问题中。我们必须推导出适用于我们系统的数学表达式。一旦我们有了这些新的推导公式,我们就结合了其他方法使用的一些现有的工程技巧,”So说。

第二名没有得分

为了测试他们的方法,他们设计了许多具有不同初始条件的控制实验。例如,在某些模拟中,自主代理需要达到并保持在一个目标区域内,同时进行激烈的机动以避免与即将相撞的障碍物碰撞。

迈向安全可靠的飞行自动驾驶的一步 计算科学 第2张

与几个基线进行比较时,他们的方法是唯一一个能够在保持安全的同时稳定所有轨迹的方法。为了进一步推进他们的方法,他们将其应用于模拟喷气式飞机,在这种情况下人们可能会看到《壮志凌云》电影中的场景。喷气式飞机需要在靠近地面的目标上保持稳定,同时保持非常低的高度并在狭窄的飞行通道内行驶。

这款模拟喷气式飞机模型于2018年开源,由飞行控制专家设计为测试挑战。研究人员能否创造一个他们的控制器无法飞行的场景?但是该模型过于复杂,难以使用,并且仍然无法处理复杂的情况,范楚楚说。

麻省理工学院的研究人员的控制器能够比任何基线更好地防止喷气式飞机坠毁或失速,同时稳定地达到目标。

未来,这种技术可能是设计满足安全和稳定要求的高动态机器人控制器的起点,例如自主交付无人机。或者它可以作为较大系统的一部分实施。也许当一辆车在雪地上打滑时,该算法只有在帮助驾驶员安全地导航回到稳定的轨迹时才会被激活。

“他们的方法真正发挥作用的是在人类无法处理的极端情况下,”So补充道。

“我们认为,作为领域内应该努力的目标是为强化学习提供安全和稳定性保证,以便我们在部署这些控制器到任务关键系统时能够给我们提供保障。我们认为这是实现这一目标的有希望的第一步,”他说。

未来,研究人员希望增强他们的技术,使其能够更好地考虑不确定性,以解决优化问题。他们还想调查算法在部署到硬件上时的表现,因为模型的动力学与现实世界中的动力学存在不匹配。

“范教授的团队改进了动态系统强化学习的性能,尤其是在关乎安全的情况下。他们不仅仅是实现了目标,而是创建了控制器,确保系统可以安全地到达目标并永久保持在那里,”斯托尼布鲁克大学计算机科学系的助理教授Stanley Bak说道,他没有参与这项研究。“他们改进的公式允许成功生成复杂场景的安全控制器,包括由空军研究实验室(AFRL)的研究人员设计的17个状态的非线性喷气式飞机模型,其中包含具有升力和阻力表的非线性微分方程。”

该工作部分由MIT林肯实验室在空中特技飞行规定安全项目下资助。

Leave a Reply

Your email address will not be published. Required fields are marked *