一种基于3DQN_PSER算法的单交叉口信号控制方法技术

技术编号：24413737 阅读：29 留言：0更新日期：2020-06-06 10:26

本发明专利技术涉及一种基于3DQN_PSER算法的单交叉口信号控制方法，本发明专利技术结合典型单交叉路口的特点并遵循信号控制基本原则，在离散交通状态编码的基础上增加信号灯状态；并引入动作奖惩系数来满足最小最大绿灯时间约束；还采用排队长度、累计等待时间、刹车次数和相位是否切换进行多指标系数加权奖励。在此基础上，考虑到交通流数据和信号方案之间存在时序相关性，采用基于优先序列经验重放的方式来更新经验池中的样本数据优先级，并通过双Q网络来调整Q值的选择，以及使用竞争架构Q网络来微调网络结构。本发明专利技术克服了原有的单一状态设计的局限性问题，通过信号控制，可以大大缓解交通拥堵问题。

A method based on 3dqn_ Signal control method of single intersection based on pser algorithm

全部详细技术资料下载

【技术实现步骤摘要】
一种基于3DQN_PSER算法的单交叉口信号控制方法
本专利技术涉及智慧交通
，尤其涉及一种基于3DQN_PSER算法的单交叉口信号控制方法。
技术介绍
交通拥堵问题是屡见不鲜的“城市病”，而信号控制一直被认为是治理拥堵的最佳方式。由于交通系统具有较强的非线性、模糊性和不确定性，传统的理论和方法很难对其进行有效的控制，随着近些年机器学习和人工智能技术的火热发展，学者们发现强化学习这种无模型自学习的方法，非常适合序列决策的交通信号控制问题。强化学习核心三要素为状态、动作和奖励，若将其应用在交通信号控制领域，复杂的交通状态空间容易引发“维数灾难”问题，所以通常将深度学习这种能够抽取大样本集数据特征的新技术结合强化学习，也就是深度强化学习。在深度强化学习处理信号控制领域中，仍然存在一些问题：状态设计主要采用离散交通状态编码(DTSE)将进口道从停车线位置开始划分成若干网格，并将网格内的车辆信息组装成三维张量；动作调整主要基于两类，一类是固定相序，通常做法是在满足最小绿灯时间前提下的每一时刻做出选择，保持当前相位还是切换下一相位，另一类是可变相序，在达到最小绿灯时间基础上从若干相序方案中做出选择；奖励主要通过单指标来评价，但实际控制效果无法通过单一指标来衡量；从采用的深度强化学习算法来看，未能结合实际交通流量数据时序特性来进行算法优化。
技术实现思路
本专利技术为克服上述的不足之处，目的在于提供一种基于3DQN_PSER算法的单交叉口信号控制方法，本专利技术基于3DQN_PSER算法(采用优...

【技术保护点】
1.一种基于3DQN_PSER算法的单交叉口信号控制方法，其特征在于，包括如下步骤：/n(1)对城市道路交叉口各进口道卡口电警的过车数据进行统计；/n(2)对步骤(1)采集到的流量数据进行预处理，根据车牌号匹配的方法消除重复数据，并对缺失数据，按照短期内流量的时序相关性，采取前后流量数据的均值进行修复；/n(3)基于步骤(2)得到的各车道流量数据，生成OD矩阵，配置对应的路由数据文件，并根据实际交叉口拓扑结构生成路网文件，基于需要探测的车辆运行状态配置车道区域探测器；/n(4)通过离散交通状态编码技术设计路口的车辆动态流信息，组装成三维张量输入，并根据不同流向当前的信号状态，设计一维数组表示作为另一输入；/n(5)将相位方案库离散化，作为动作集合A，引入动作奖惩系数δ来满足相位最小最大绿灯时间约束，对信号灯状态转变进行设计以实现相位过渡；/n(6)对排队长度r

【技术特征摘要】
1.一种基于3DQN_PSER算法的单交叉口信号控制方法，其特征在于，包括如下步骤：
(1)对城市道路交叉口各进口道卡口电警的过车数据进行统计；
(2)对步骤(1)采集到的流量数据进行预处理，根据车牌号匹配的方法消除重复数据，并对缺失数据，按照短期内流量的时序相关性，采取前后流量数据的均值进行修复；
(3)基于步骤(2)得到的各车道流量数据，生成OD矩阵，配置对应的路由数据文件，并根据实际交叉口拓扑结构生成路网文件，基于需要探测的车辆运行状态配置车道区域探测器；
(4)通过离散交通状态编码技术设计路口的车辆动态流信息，组装成三维张量输入，并根据不同流向当前的信号状态，设计一维数组表示作为另一输入；
(5)将相位方案库离散化，作为动作集合A，引入动作奖惩系数δ来满足相位最小最大绿灯时间约束，对信号灯状态转变进行设计以实现相位过渡；
(6)对排队长度rqueue、累计等待时间rwaitTime、刹车次数rhalting和相位是否切换rphase四个指标进行系数加权，作为信号智能体的奖励函数；
(7)基于以线为单位来调整一定范围内样本数据优先级的优先序列经验重放的方法，并结合DoubleDQN和DuelingDQN来优化深度Q学习算法，基于Adam优化器，并采用均方差作为损失函数，反复更新网络模型参数，寻找得到最优的配时方案。

2.根据权利要求1所述的一种基于3DQN_PSER算法的单交叉口信号控制方法，其特征在于：所述步骤(1)具体为：基于城市道路交叉口安装的卡口和电子警察等视频检测系统，收集单交叉口的流量数据记录，按照分钟为单位时间对记录进行处理，根据车辆唯一标识，即车牌号，统计各进口道的过车数量；其中每条记录包含如下信息：device_ID、intersection_name、cameraposition、turnID、roadID、time。

3.根据权利要求1所述的一种基于3DQN_PSER算法的单交叉口信号控制方法，其特征在于：所述步骤(4)具体为：
(i)采用离散交通状态编码技术，将进口道从停车线位置开始划分成若干网络，并以网格内的车辆位置和速度信息组装成状态s，对于有H个进口道的典型四岔路口，状态空间大小是由该路口各进口道的网格信息确定，记为H×(L/c)×Y，其中，Y表示刻画交通状态的指标数目，L表示进口道检测器探测的区域长度；将该路口车辆的分布位置和对应未知的速度组装成三维张量；
(ii)针对典型四岔路口的8个流向，设计一维数组作为信号灯状态，若信号灯当前执行某相位方案，其信号灯状态可能是[1，0，0，0，1，0，0，0]，其中1表示某流向为绿灯信号，该数组作为算法模型的另一状态输入信息，通过全连接层的处理，再与经过三层卷积处理的交通流状态信息结合，然后进行一系列全连接层处理。

4.根据权利要求1所述的一种基于3DQN_PSER算法的单交叉口信号控制方法，其特征在于：所述步骤(5)中，列举出所有无冲突情况下的相位方案库，信号智能体在每个决策点都会从动作方案集合A＝{0，1，2，3，4，5，6，7}中选择一种相位方案；如果选择的动作和当前相位方案相同，则执行当前绿灯相位τg秒，否则，需要先执行过渡相位(黄灯相位)τy秒，根据在决策点的选择会执行对应的相位方案；其中，根据相位最小绿灯时间和最大绿灯时间，设计了动作奖惩系数，并将其引入最终Q值的计算；动作奖惩系数如下所示：
<...

【专利技术属性】
技术研发人员：刘志，曹诗鹏，沈阳，杨曦，沈国江，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人