一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法技术

技术编号:20747539 阅读:29 留言:0更新日期:2019-04-03 10:47
本发明专利技术提供一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法,属于机器学习与智能交通的交叉领域。本方法首先将一个区域的多交叉口交通网络建模为多Agent系统,各个Agent在学习策略过程中同时考虑最近时刻的相邻Agent动作的影响,使得多个Agent能协同地进行多交叉口的信号灯控制。每个Agent通过一个深度Q网络自适应控制一个交叉口,网络输入为各自对应路口的原始状态信息的离散交通状态编码。在其学习过程中将最近时刻相邻Agent的最优动作Q值迁移到网络的损失函数中。本方法能够提升区域路网的交通流量,提高道路的利用率,减少车辆的排队长度,缓解交通拥堵。该方法对各交叉口结构无限制。

【技术实现步骤摘要】
一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法
本专利技术属于机器学习与智能交通的交叉领域,涉及一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法。
技术介绍
交通拥堵问题已成为城市交通面临的迫切挑战,然而现存的基础道路设施由于空间、环境和经济方面的限制难以扩张。因此,交通信号灯的优化控制是解决这一问题的有效途径之一。通过信号灯的自适应控制,能够优化区域道路网络的交通,减少拥堵及二氧化碳的排放。目前,不同的机器学习方法已被用于城市交通信号灯控制的研究,主要包括模糊逻辑、进化算法和动态规划。基于模糊逻辑的控制通常依据专家知识建立一组规则,再根据交通状态选择近似的信号灯相位。然而,由于规则的制定过分依赖于专家知识,对于拥有大量相位的多交叉口,获得一套有效的规则更为困难。遗传算法和蚁群算法等进化算法,由于其较低的搜索效率,在应用于大规模的交通协同优化控制时,难以满足交通信号灯决策的实时性要求。动态规划难以建立有效的交通环境模型,难以解决计算成本和计算环境转移概率的问题。交通信号灯控制实际上是一个序列决策问题,很多研究利用强化学习的框架来寻求最优控制策略。强化学习通过感知环境状态并从中获得不确定奖赏来学习由Agent组成的动态系统的最优行为策略。该方法将学习视为一个试错的过程,如果Agent的某个行为策略导致环境正的奖赏(强化信号),那么Agent以后产生这个行为策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略以使期望的累积奖赏最大。强化学习方法在单路口和区域多路口信号灯控制方面已有大量应用。对于多路口的信号灯控制,主要有集中式控制和分布式控制两种方式。集中控制利用强化学习训练一个单独的Agent控制整个道路网络,在每个时间步Agent对道路网络的各交叉口信号灯相位进行决策。然而,集中控制由于状态空间和动作空间会随着交叉口的线性增加而指数增长,导致状态空间和动作空间的维度灾难;分布式控制将多路口信号灯控制问题建模为多Agent系统,其中每个Agent负责控制一个单路口的信号灯。Agent通过单个路口的局部环境进行决策的方式易于扩展到多交叉口。传统的强化学习通过人工提取的路口特征来表示状态空间。为避免状态空间过大,通常都简化状态表示,往往忽略了一些重要信息。基于强化学习的Agent通过对周围环境的状态观察进行决策,如果丢失重要的信息,Agent难以做出对真实环境最优的决策。例如,仅利用道路上车辆排队长度表示状态空间忽略了正在移动的车辆以及车辆的位置、速度等信息;而仅利用平均车辆延迟只反映了历史交通数据,忽略了实时交通需求。这些解决状态空间过大的方法没有充分利用交叉口的有效状态信息,导致Agent所做的决策是基于部分信息的。在DeepMind实验室的Mnih提出将强化学习与深度学习联合的深度Q网络(DeepQNetwork,DQN)学习算法后(MnihV,KavukcuogluK,SilverD,etal.Human-levelcontrolthroughdeepreinforcementlearning[J].Nature,2015,518(7540):529-533.),很多学者将深度强化学习技术应用于单路口和多路口的信号灯控制。通过卷积神经网络(ConvolutionalNeuralNetwork,CNN)、堆叠自编码器(StackedAuto-Encoder,SAE)等深度学习模型进行路口状态信息的自动提取特征,Agent能够充分地利用路口状态信息进行最优决策。Li等人使用各道路车辆排队长度作为路口状态,并利用深度堆叠的自编码器来估计最优的Q值(LiL,YishengL,WangFY.Trafficsignaltimingviadeepreinforcementlearning[J].ACTAAUTOMATICASINICA,2016,3(3):247-254.)。Genders等人提出基于CNN的深度强化学习控制单路口信号灯,将状态空间定义为车辆的位置矩阵、速度矩阵和最近时刻的信号灯相位,应用带有经验回放的Q-learning算法训练单交叉口的信号灯控制器。该方法由于动作值与目标值之间的潜在相关性,使得算法的稳定性较差(GendersW,RazaviS.UsingaDeepReinforcementLearningAgentforTrafficSignalControl[J].//arXivpreprintarXiv:1611.01142,2016.)。为了解决不稳定的问题,Gao等人采用目标网络改进了Genders的方法(GaoJ,ShenY,LiuJ,etal.AdaptiveTrafficSignalControl:DeepReinforcementLearningAlgorithmwithExperienceReplayandTargetNetwork.//arXivpreprintarXiv:1705.02755,2017.)。Jeon等人指出以往大多数强化学习研究中的参数不能完全表示实际交通状态的复杂性,他们直接使用交叉口的视频图像来表示交通状态(JeonHJ,LeeJandSohnK.Artificialintelligencefortrafficsignalcontrolbasedsolelyonvideoimages.JournalofIntelligentTransportationSystems,2018,22(5):433-445)。最近,VanderPol等人首次将多Agent深度强化学习应用于规则的多路口信号灯自适应控制(VanderPolEandOliehoekFA,Coordinateddeepreinforcementlearnersfortrafficlightcontrol.//InNIPS’16WorkshoponLearning,InferenceandControlofMulti-AgentSystems,2016)。首先将多Agent问题划分为多个较小的子问题(两个相邻交叉口的Agent为一个子问题,又称为“源问题”),利用DQN算法在源问题上训练并得到近似的联合Q函数,进而将训练源问题得到的近似联合Q函数迁移至其他子问题,最后应用max-plus算法寻找最优联合动作。然而,将max-plus算法应用于以协同图表示的协作多Agent系统,不能保证收敛到最优解,且在不同的源问题之间迁移Q函数要求各源问题状态空间和动作空间大小相同,因而该方法对各交叉口的网络结构施加了较强的限制。针对多交叉口交通状态特征提取困难、信号灯控制缺乏有效的协同策略以及协同策略过分依赖交叉口结构的问题,本专利技术提出了一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法(CooperativeDeepQ-LearningwithQ-valueTransfer,QT-CDQN)。QT-CDQN将区域道路网络建模为多Agent系统,每个Agent通过一个DQN网络控制一个交叉口,网络的输入为车辆的原始状态信息的离散交通状态编码。各路口对应的Agent在训练过程中,考虑相邻路口最优动作对本路口的影响,将相邻Agent最近时刻的最优动作的Q值迁移到网本文档来自技高网...

【技术保护点】
1.一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法,其特征在于,包括如下步骤:步骤1:将一个区域的交通网络建模为多Agent系统,每个交叉口由一个Agent控制,每个Agent包括一个经验池M、一个估计网络和一个目标网络组成,分别初始化估计网络和目标网络的参数θi和θi′,初始化每个经验池;步骤2:对进入交叉口的所有道路上的车辆进行离散状态编码,对于某个交叉口i,将从停车线开始长度为l的道路k划分为长度c的离散单元,将交叉口i的道路k的车辆位置和速度记录为车辆位置矩阵

【技术特征摘要】
1.一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法,其特征在于,包括如下步骤:步骤1:将一个区域的交通网络建模为多Agent系统,每个交叉口由一个Agent控制,每个Agent包括一个经验池M、一个估计网络和一个目标网络组成,分别初始化估计网络和目标网络的参数θi和θi′,初始化每个经验池;步骤2:对进入交叉口的所有道路上的车辆进行离散状态编码,对于某个交叉口i,将从停车线开始长度为l的道路k划分为长度c的离散单元,将交叉口i的道路k的车辆位置和速度记录为车辆位置矩阵和车辆速度矩阵当车辆头部在某个离散单元上时,则车辆位置矩阵对应的位置值为1,否则值为0;将车辆速度与道路限制的最大速度归一化后的值作为速度矩阵对应单元格的值;对于每条进入交叉口i的车道,相应的都有一个位置矩阵和一个速度矩阵对于第i个交叉口,所有车道的和组成交叉口i的位置矩阵Pi和速度矩阵Vi;在t时刻,Agent观察到第i个交叉口的状态为其中Si表示第i个路口的状态空间;定义第i个交叉口的动作空间Ai,即第i个交叉口的所有可切换信号灯相位;定义奖赏函数r为t时刻和t+1时刻进入第i个交叉口所有车道上车辆的平均排队长度的变化;计算公式为:其中,和分别为t时刻和t+1时刻进入第i个交叉口所有车道上车辆的平均排队长度;步骤3:在每个时间步t,将第i个交叉口当前状态输入第i个Agent的估计网络,估计网络自动提取交叉口的特征并估计各个动作对应的Q值,Agent根据估计网络输出的各个动作对应的的Q值,依据ε-贪心策略,以概率1-ε选择最大的Q值对应的动作,即否则在动作空间中随机选择一个动作然后Agent执行选择的动作动作停留时间为τg,交叉口进入下一个状态Agent根据公式(1)计算奖赏其中,ε的初始值为1,呈线性递减;步骤4:将各Agent的经验存入Agent对应...

【专利技术属性】
技术研发人员:葛宏伟宋玉美
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1