当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于深度学习的城市交通系统调度策略生成方法技术方案

技术编号:26892764 阅读:24 留言:0更新日期:2020-12-29 16:13
本发明专利技术涉及一种基于深度学习的城市交通系统调度策略生成方法,包括如下步骤:搭建城市交通系统仿真模型;基于城市交通系统仿真模型,建立马尔科夫决策过程,包括状态空间、动作空间以及回报函数;根据深度学习PPO算法,搭建策略神经网络和估值神经网络;基于所述城市交通系统仿真模型、各个状态空间、各个动作空间以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型;调用训练好的神经网络模型进行仿真验证并生成城市交通系统调度策略。

【技术实现步骤摘要】
一种基于深度学习的城市交通系统调度策略生成方法
本专利技术涉及一种智能化管理系统,特别涉及一种城市交通智能化调度管理系统及方法。
技术介绍
目前,我国很多城市都在加强城市智能交通系统的建设,但事实上,目前的建设水平与真正的城市智能交通系统还相差甚远。有人认为在交通路口安装摄像头是智能交通系统,其实这些只是一个小小的基础。此外,由于城市智能交通系统中的一些实际问题(如交通控制对交通状况的影响、调度模型影响因素的确定等)还没有得到解决,目前还无法实现实时智能调度。诚然,信息技术和计算机网络技术的广泛应用,推动了城市交通向智能化方向发展。然而,城市交通智能调度管理系统存在着车辆间信息不清晰、缺乏动态信息服务等问题,严重影响了城市交通系统的调度水平。目前,城市交通系统智能调度技术的研究还比较滞后。随着相关技术的发展,城市交通系统智能调度技术具有重要的理论价值和现实意义。目前国内外对于基于深度学习的城市交通系统调度策略主要集中于对交通灯的调度,而在当前公布的众多论文、专利中,均很少涉及统一调度交通灯与车辆的功能。在现有的基于深度学习的智能调度方案中,无论是采用值网络[1]还是采用策略梯度网络[2]来生成智能调度策略,都只是单纯的调整交通灯的调度方案,而忽视了调度车辆对于改善整个系统中的交通状况的积极作用。针对这个问题,本专利采用基于PPO算法的统一调度交通灯与车辆的方案,以提升城市交通系统智能调度的整体效果。由于传统的PPO算法(ProximalPolicyOptimization算法)[3]采用的超参数多是人为设定的常数,传统的PPO算法不能适应网络训练过程中的新变化,从而影响生成的调度策略的性能。针对这个问题,本专利提出了一种自适应调节超参数的方案,进一步提升智能调度的效果。参考文献:[1]VanderPol,Elise,andFransA.Oliehoek."Coordinateddeepreinforcementlearnersfortrafficlightcontrol."ProceedingsofLearning,InferenceandControlofMulti-AgentSystems(atNIPS2016)(2016).[2]Mousavi,SeyedSajad,MichaelSchukat,andEndaHowley."Trafficlightcontrolusingdeeppolicy-gradientandvalue-function-basedreinforcementlearning."IETIntelligentTransportSystems11.7(2017):417-423.[3]Schulman,John,etal."Proximalpolicyoptimizationalgorithms."arXivpreprintarXiv:1707.06347(2017).
技术实现思路
本专利技术的目的是提供一种综合统筹,并且能够自适应的调节超参数的基于深度学习的交通系统调度策略生成方法,技术方案如下:一种基于深度学习的城市交通系统调度策略生成方法,包括如下步骤:(1)搭建城市交通系统仿真模型;(2)基于城市交通系统仿真模型,建立马尔科夫决策过程,包括状态空间、动作空间以及回报函数,具体为:(2.1)为系统中每一个交通灯建立状态空间:交通灯状态空间有GRGR和RGRG两种状态,GRGR表示车辆可以在该交通灯所在路口南北向通行,RGRG表示车辆可以在该交通灯所在路口东西向通行;(2.2)为系统中每一个车辆建立状态空间:车辆状态空间包括三个子空间,第一个子空间代表车辆速度,是个连续空间,取值范围为0和道路限速组成的闭区间。第二个子空间代表车辆所在位置与下一个交通灯之间的距离,是个连续空间,取值范围为0和路段长度组成的闭区间。第三个子空间代表车辆所在路段,是个离散空间,取值范围为1和路段个数组成的正整数区间;(2.3)为系统中每一个交通灯建立动作空间,交通灯动作空间有两种动作:转化为GRGR和转化为RGRG。(2.4)为系统中每一个车辆建立动作空间,车辆动作空间是个连续空间,表示该车辆在该时刻对本身施加的加速度,取值范围与静态路网信息单元中的车辆加速度范围一致;(2.5)为系统中每一个交通灯和每一个车辆建立回报函数,将系统中每个车辆的平均延迟的相反数作为回报;(3)根据深度学习PPO算法,搭建策略神经网络和估值神经网络;(4)基于所述自动驾驶仿真模型、状态空间、动作空间以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型,具体为:(4.1)初始化策略神经网络参数和估值神经网络参数;(4.2)对各个状态空间进行初始化,得到当前状态st;(4.3)城市交通系统仿真模型根据策略神经网络输出的策略基于动作空间选择行为at,执行所述状态转移方程,得到下一步的状态st+1,根据回报函数获取回报rt,计算此步的优势函数At并保存,反复执行此过程T步;(4.4)根据PPO算法的损失函数,运用梯度下降法更新策略神经网络参数和估值神经网络的参数;(4.5)策略神经网络输出新策略,判断是否需要更新步长,若新旧策略的KL散度超出阈值则更新步长;(4.6)反复执行N次(4.2)到(4.5),从而完成神经网络模型的训练,保存训练好的神经网络模型。(5)调用训练好的神经网络模型进行仿真验证并生成城市交通系统调度策略。在所述步骤(1)中,搭建城市交通系统仿真模型,具体为:(1.1)建立静态路网信息单元:将路段长度、交通灯位置、道路限速数据以及车辆加速度范围存入建立静态路网信息单元中;(1.2)建立动态路网信息单元:将初始时刻系统内车辆的速度信息、位置信息,交通灯的信号信息存入动态路网信息单元,在系统运行过程中,实时更新动态路网信息单元内的信息。在所述步骤(3)中,根据深度学习PPO算法,搭建策略神经网络和估值神经网络,具体为,策略神经网络和估值神经网络均为三层神经网络,两个隐藏层,最后为输出层,采用Relu作为激活函数,隐藏层含有128个神经元,步长λ初值设为0.97,折扣因子设为0.999。本专利技术的有益效果如下:(1)本专利技术基于深度学习PPO算法,设计面向城市交通系统智能调度,使用神经网络拟合环境和车辆行为、交通灯行为间的映射关系,并对其进行训练,使得城市交通系统能够使用训练好的神经网络自主生成智能调度策略。(2)本专利技术充分调动了车辆在智能调度中的作用,将交通系统内的交通灯和车辆进行统一调度,提升了智能调度的效果。附图说明图1为本方法方法流程图图2为强化学习原理图;图3为决策网络框架图;图4为估值网络框架图;图5为策略网络损失函数;图6为估值网络损失函数;图7为城市交通系统车辆平均延迟曲线图;具体实施方式为使本专利技术的技本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的城市交通系统调度策略生成方法,包括如下步骤:/n(1)搭建城市交通系统仿真模型;/n(2)基于城市交通系统仿真模型,建立马尔科夫决策过程,包括状态空间、动作空间以及回报函数。具体为:/n(2.1)为系统中每一个交通灯建立状态空间:交通灯状态空间有GRGR和RGRG两种状态,GRGR表示车辆可以在该交通灯所在路口南北向通行,RGRG表示车辆可以在该交通灯所在路口东西向通行;/n(2.2)为系统中每一个车辆建立状态空间:车辆状态空间包括三个子空间,第一个子空间代表车辆速度,是个连续空间,取值范围为0和道路限速组成的闭区间;第二个子空间代表车辆所在位置与下一个交通灯之间的距离,是个连续空间,取值范围为0和路段长度组成的闭区间;第三个子空间代表车辆所在路段,是个离散空间,取值范围为1和路段个数组成的正整数区间;/n(2.3)为系统中每一个交通灯建立动作空间,交通灯动作空间有两种动作:转化为GRGR和转化为RGRG;/n(2.4)为系统中每一个车辆建立动作空间,车辆动作空间是个连续空间,表示该车辆在该时刻对本身施加的加速度,取值范围与静态路网信息单元中的车辆加速度范围一致;/n(2.5)为系统中每一个交通灯和每一个车辆建立回报函数,将系统中每个车辆的平均延迟的相反数作为回报;/n(3)根据深度学习PPO算法,搭建策略神经网络和估值神经网络;/n(4)基于所述城市交通系统仿真模型、各个状态空间、各个动作空间以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型,具体为:/n(4.1)初始化策略神经网络参数和估值神经网络参数;/n(4.2)对各个状态空间进行初始化,得到当前状态st;/n(4.3)城市交通系统仿真模型根据策略神经网络输出的策略基于动作空间选择行为at,执行所述状态转移方程,得到下一步的状态st+1,根据回报函数获取回报rt,计算此步的优势函数At并保存,反复执行此过程T步;/n(4.4)根据PPO算法的损失函数,运用梯度下降法更新策略神经网络参数和估值神经网络的参数;/n(4.5)策略神经网络输出新策略,判断是否需要更新步长,若新旧策略的KL散度超出阈值则更新步长;/n(4.6)反复执行N次(4.2)到(4.5),从而完成神经网络模型的训练,保存训练好的神经网络模型;/n(5)调用训练好的神经网络模型进行仿真验证并生成城市交通系统调度策略。/n...

【技术特征摘要】
1.一种基于深度学习的城市交通系统调度策略生成方法,包括如下步骤:
(1)搭建城市交通系统仿真模型;
(2)基于城市交通系统仿真模型,建立马尔科夫决策过程,包括状态空间、动作空间以及回报函数。具体为:
(2.1)为系统中每一个交通灯建立状态空间:交通灯状态空间有GRGR和RGRG两种状态,GRGR表示车辆可以在该交通灯所在路口南北向通行,RGRG表示车辆可以在该交通灯所在路口东西向通行;
(2.2)为系统中每一个车辆建立状态空间:车辆状态空间包括三个子空间,第一个子空间代表车辆速度,是个连续空间,取值范围为0和道路限速组成的闭区间;第二个子空间代表车辆所在位置与下一个交通灯之间的距离,是个连续空间,取值范围为0和路段长度组成的闭区间;第三个子空间代表车辆所在路段,是个离散空间,取值范围为1和路段个数组成的正整数区间;
(2.3)为系统中每一个交通灯建立动作空间,交通灯动作空间有两种动作:转化为GRGR和转化为RGRG;
(2.4)为系统中每一个车辆建立动作空间,车辆动作空间是个连续空间,表示该车辆在该时刻对本身施加的加速度,取值范围与静态路网信息单元中的车辆加速度范围一致;
(2.5)为系统中每一个交通灯和每一个车辆建立回报函数,将系统中每个车辆的平均延迟的相反数作为回报;
(3)根据深度学习PPO算法,搭建策略神经网络和估值神经网络;
(4)基于所述城市交通系统仿真模型、各个状态空间、各个动作空间以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型,具体为:
(4.1)初始化策略神经网络参数和估值神经网络参数;
(4.2)对各个状态空间...

【专利技术属性】
技术研发人员:杨嘉琛张季鹏
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1