东京大学的研究人员开发了一种扩展的光子强化学习方案，它从静态赌徒问题转向更具挑战性的动态环境

东京大学的研究人员开发了一种扩展的光子强化学习方案，它从静态赌徒问题转向更具挑战性的动态环境四海第1张

在机器学习的世界中，强化学习的概念占据了中心舞台，使代理通过在特定环境中的迭代试错来征服任务。它突出了这一领域的成就，例如使用光子方法来外包计算成本，并利用光的物理属性。它强调了将这些方法扩展到涉及多个代理和动态环境的更复杂问题的必要性。通过这项来自东京大学的研究，研究人员旨在将赌博算法与Q学习相结合，创建一种修改过的赌博Q学习（BQL），以加速学习并为多智能体合作提供见解，最终促进光子强化技术的进步。

研究人员使用了网格世界问题的概念。在这个问题中，一个代理通过一个5*5的网格进行导航，每个单元格表示一个状态。在每一步中，代理必须采取上、下、左或右的动作，并接收奖励和下一个状态。特定的单元格A和B提供更高的奖励，并促使代理转移到不同的单元格。这个问题依赖于一个确定性策略，其中代理的动作决定了它的移动。

动作值函数Q(s, a)量化了给定策略π的状态-动作对未来奖励。这个函数体现了代理通过其动作对累积奖励的预期。这项研究的主要目标是使代理学习所有状态-动作对的最优Q值。引入了一种修改过的Q学习，将赌博算法整合进来，通过动态的状态-动作对选择增强学习过程。

这种修改过的Q学习方案允许并行学习，其中多个代理更新共享的Q表。并行化通过增强Q表更新的准确性和效率来提升学习过程。设想了一个决策系统，利用光子的量子干涉原理，确保代理的同时动作保持不同，而无需直接通信。

研究人员计划开发一种算法，使代理能够连续行动，并将其方法应用于更复杂的学习任务。未来，作者的目标是创建一个光子系统，使至少三个代理之间能够进行无冲突的决策，增强决策协调。