

强化学习(RL)是机器学习的一个子领域,其中代理采取适当的行动来最大化其回报。在强化学习中,模型从经验中学习,并确定导致最佳回报的最优行动。近年来,RL取得了显著进展,并在广泛的领域中得到应用,从自动驾驶汽车到机器人甚至游戏。在RL系统的开发方面也有重大进展。这些库的例子包括RLLib、Stable-Baselines 3等。
为了创建一个成功的RL代理,需要解决一些问题,例如解决延迟回报和下游后果的问题,找到开发和探索之间的平衡,并考虑其他参数(如安全考虑或风险要求)以避免灾难性情况。虽然当前的RL库功能强大,但并没有很好地解决这些问题。因此,Meta的研究人员发布了一个名为Pearl的库,该库考虑了上述问题,并允许用户为其真实世界的应用程序开发多功能的RL代理。
Pearl是基于PyTorch构建的,这使其与GPU和分布式训练兼容。该库还提供了不同的测试和评估功能。Pearl的主要策略学习算法称为PearlAgent,具有智能探索、风险敏感性、安全约束等功能,并且具有离线和在线学习、安全学习、历史总结和回放缓冲区等组件。
一个有效的RL代理应该能够使用离线学习算法学习和评估策略。此外,对于离线和在线训练,代理应该具有一些数据收集和策略学习的安全措施。除此之外,代理还应该能够使用不同的模型学习状态表示,并将历史总结为状态表示以过滤掉不可取的行动。最后,代理还应该能够使用回放缓冲区有效地重用数据以提高学习效率。Meta的研究人员将所有上述特征都融入了Pearl的设计中(更具体地说是PearlAgent),使其成为设计RL代理的多功能有效库。
研究人员将Pearl与现有的RL库进行了比较,评估了模块化、智能探索和安全性等因素。Pearl成功实现了所有这些功能,从未能整合所有必要功能的竞争对手中脱颖而出。例如,RLLib支持离线RL、历史总结和回放缓冲区,但不支持模块化和智能探索。类似地,SB3未能整合模块化、安全决策和上下文匹配。这就是Pearl在研究人员考虑的所有特性方面的独特之处。
Pearl目前还在进一步支持各种实际应用程序,包括推荐系统、拍卖竞标系统和创意选择,使其成为解决不同领域复杂问题的有希望的工具。尽管强化学习在近年来取得了重大进展,但将其应用于解决实际问题仍然是一项艰巨的任务,而Pearl通过提供全面且适用于生产的解决方案来填补这一差距。凭借其智能探索、安全和历史总结等独特功能,它有潜力成为在实际应用中更广泛整合RL的有价值资产。