基于启发式深度Q网络的交通灯控制方法技术

技术编号：25711639 阅读：25 留言：0更新日期：2020-09-23 02:57

本发明专利技术公开了一种基于启发式深度Q学习的多路口交通信号控制方法，主要解决现有方法中的训练数据有相关性、交通灯控制策略不能快速收敛和控制效率低的问题。其方案是：读取城市交通路网信息，建立各个路口的车辆交通状态集合，并将读取的城市交通路网信息转换为邻接矩阵进行存储；从各个路口车辆交通状态集合中，获取各个路口状态集、动作集和动作奖励值；根据状态集、动作集、动作奖励值和邻接矩阵，利用启发式深度Q网络方法根据每个路口的状态不断地执行动作获取奖励再到下一状态，实现对城市路网交通灯进行控制。本发明专利技术能提高对路口交通信号灯的控制效率，改善了多路口交通信号控制器的性能，可用于城市交通管理，减少城市交通拥堵。

全部详细技术资料下载

【技术实现步骤摘要】
基于启发式深度Q网络的交通灯控制方法
本专利技术属于智能交通控制领域，特别涉及一种交通灯控制方法，可用于城市交通管理，减少城市交通拥堵。
技术介绍
在城市智能交通控制领域，深度学习和强化学习是目前很热门的研究方向，并取得了不错的成效。强化学习是通过与城市道路环境的不断交互获取环境状态来学习最优的交通控制策略，形成城市交通的自适应控制系统。然而由于城市道路环境复杂度的提高会导致其在获取先验知识过程中，状态-动作空间的维度急剧增长。为解决此类问题，强化学习与深度学习结合形成的深度强化学习DRL同时利用深度学习的感知能力和强化学习的决策能力，对高维输入进行处理，表现出了良好的效果。深度学习可以从高维数据中提取判别信息，在大数据推理与机器学习研究方向具有良好的表现。将深度学习方法应用于自适应交通信号控制问题已经成为国内外研究的热点，可以进一步优化现有的交通信号控制方法，同时利用多智能体系统，结合实际的复杂路网情况分析多路口之间的协作关系，实现多路口交通信号控制。强化学习通过状态、动作和奖励与环境进行交互，其主要由智能体和环境组成。强化学习RL的模型如图2所示。RL通过不断的试错，从环境中获取奖励值，根据奖励值来改进智能体的动作选择，以获取最大的奖励。一个强化学习任务在满足马尔可夫性时被称作马尔可夫决策过程MDP，马尔可夫决策过程定义为如下所示五元组：其中i,j∈S,a∈Ai。式中，S表示环境状态空间的集合；i和j分别表示状态集中的一个状态，Ai表示agent在状态i的动作集；表示在状态i下采取动作a转移到状态...

【技术保护点】
1.一种基于启发式深度Q网络的交通灯控制方法，其特征在于，包括如下：/n(1)读取城市交通路网信息，建立各个路口的车辆交通状态集合，并将读取的城市交通路网信息转换为邻接矩阵进行存储；/n(2)从(1)建立的各个路口车辆交通状态集合中，获取各个路口信息，即各时刻的状态集、动作集和动作奖励值；/n(3)根据(2)获取的信息和(1)中的邻接矩阵，利用启发式深度Q网络方法实现对城市路网交通灯进行控制：/n3a)初始化第i个路口的评估网络参数θ

【技术特征摘要】
1.一种基于启发式深度Q网络的交通灯控制方法，其特征在于，包括如下：
(1)读取城市交通路网信息，建立各个路口的车辆交通状态集合，并将读取的城市交通路网信息转换为邻接矩阵进行存储；
(2)从(1)建立的各个路口车辆交通状态集合中，获取各个路口信息，即各时刻的状态集、动作集和动作奖励值；
(3)根据(2)获取的信息和(1)中的邻接矩阵，利用启发式深度Q网络方法实现对城市路网交通灯进行控制：
3a)初始化第i个路口的评估网络参数θi＝1和目标网络参数初始化学习率α＝0.05，折扣因子γ＝0.99，ε贪心策略中的ε初始为1迭代递减至0.01，采样间隔batch＝32，目标网络更新步长C＝50，仿真时间t的初始值为0，初始化第i个路口的奖励rti＝0，迭代次数上限T＝50000；
3b)设置启发式函数
3c)在时刻t，将第i个路口的状态输入到评估网络中，对任意一个动作a，计算评估网络的输出值和启发函数的函数值；
3d)选择并执行信号灯动作获得奖励rti，再进入下一状态令t＝t+1；
3e)用状态动作评估网络的输出值奖励rti和下一状态组成一个参考向量并将其存储在第i个路口的参考向量集Mi中，当该参考向量个数大于2000时，开始训练评估网络，执行3f)，否则，执行3c)；当该参考向量个数大于5000，则移除最早生成的参考向量；
3f)从参考向量集Mi中采样得到参考向量的样本集，输入到评估网络中得到输出值根据评估网络的输出值和第j个邻接路口t-1时刻的评估网络的输出值更新第i个路口的评估网络的输出值
3g)计算评估网络的损失函数，根据梯度下降方法更新评估网络参数θi，每隔50步，目标网络参数
3h)将当前迭代次数t与迭代次数上限T进行比较，判断迭代是否停止：
若t>T，完成对城市路网交通灯的控制；否则，返回3c)。

2.根据权利要求1所述的方法，其特征在于：(1)中读取城市交通路网信息，建立各个路口的车辆交通状态集合Ti，实现如下：
1a)根据交通路网信息构建路口交通信号控制器的集合I：
I＝{agent0,···agenti,···agentn}，
其中agenti表示第i个路口的交通信号控制器，i∈[0,n]，n为路网中的路口数；
1b)根据中国的道路交通规则建立路口信号控制器agenti的动作集Ai：
Ai＝{a1,a2,a3,a4}，
其中a1表示南北方向的直行或右拐，a2表示东西方向的直行或右拐，a3表示南北方向的左拐，a4表示东西方向的左拐，路口信号控制器agenti在同一时刻只能选择一组信号灯相位方向；
1c)根据城市交通路网信息构建第i个路口的驶入车道集合Li，驶入车道集合Li中的一条驶入车道为li，li∈Li；
1d)根据中国的道路交通规则构建第i个路口的信号灯集合TLi，驶入车道li上的信号灯为tli，tli∈TLi，该信号灯仅考虑红灯和绿灯；
1e)根据路网中车辆信息构建第i个路口的车辆状态集其包含车辆所处车道的信号灯tli、所处位置p以及目的地d信息，并用三元组[tli,p,d]表示；
1f)根据交通...

【专利技术属性】
技术研发人员：方敏，徐维，刘超，葛领驰，陈博，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人