一种基于3DQN_PSER算法的单交叉口信号控制方法技术

技术编号:24413737 阅读:29 留言:0更新日期:2020-06-06 10:26
本发明专利技术涉及一种基于3DQN_PSER算法的单交叉口信号控制方法,本发明专利技术结合典型单交叉路口的特点并遵循信号控制基本原则,在离散交通状态编码的基础上增加信号灯状态;并引入动作奖惩系数来满足最小最大绿灯时间约束;还采用排队长度、累计等待时间、刹车次数和相位是否切换进行多指标系数加权奖励。在此基础上,考虑到交通流数据和信号方案之间存在时序相关性,采用基于优先序列经验重放的方式来更新经验池中的样本数据优先级,并通过双Q网络来调整Q值的选择,以及使用竞争架构Q网络来微调网络结构。本发明专利技术克服了原有的单一状态设计的局限性问题,通过信号控制,可以大大缓解交通拥堵问题。

A method based on 3dqn_ Signal control method of single intersection based on pser algorithm

【技术实现步骤摘要】
一种基于3DQN_PSER算法的单交叉口信号控制方法
本专利技术涉及智慧交通
,尤其涉及一种基于3DQN_PSER算法的单交叉口信号控制方法。
技术介绍
交通拥堵问题是屡见不鲜的“城市病”,而信号控制一直被认为是治理拥堵的最佳方式。由于交通系统具有较强的非线性、模糊性和不确定性,传统的理论和方法很难对其进行有效的控制,随着近些年机器学习和人工智能技术的火热发展,学者们发现强化学习这种无模型自学习的方法,非常适合序列决策的交通信号控制问题。强化学习核心三要素为状态、动作和奖励,若将其应用在交通信号控制领域,复杂的交通状态空间容易引发“维数灾难”问题,所以通常将深度学习这种能够抽取大样本集数据特征的新技术结合强化学习,也就是深度强化学习。在深度强化学习处理信号控制领域中,仍然存在一些问题:状态设计主要采用离散交通状态编码(DTSE)将进口道从停车线位置开始划分成若干网格,并将网格内的车辆信息组装成三维张量;动作调整主要基于两类,一类是固定相序,通常做法是在满足最小绿灯时间前提下的每一时刻做出选择,保持当前相位还是切换下一相位,另一类是可变相序,在达到最小绿灯时间基础上从若干相序方案中做出选择;奖励主要通过单指标来评价,但实际控制效果无法通过单一指标来衡量;从采用的深度强化学习算法来看,未能结合实际交通流量数据时序特性来进行算法优化。
技术实现思路
本专利技术为克服上述的不足之处,目的在于提供一种基于3DQN_PSER算法的单交叉口信号控制方法,本专利技术基于3DQN_PSER算法(采用优先序列经验重放、基于双深度网络(DoubleDQN)和竞争结构网络(DuelingDQN)技术的深度强化学习算法),结合典型单交叉路口的特点并遵循信号控制基本原则,在离散交通状态编码的基础上增加信号灯状态;并引入动作奖惩系数来满足最小最大绿灯时间约束;还采用排队长度、累计等待时间、刹车次数和相位是否切换进行多指标系数加权奖励。在此基础上,考虑到交通流数据和信号方案之间存在时序相关性,采用基于优先序列经验重放的方式来更新经验池中的样本数据优先级,并通过双Q网络来调整Q值的选择,以及使用竞争架构Q网络来微调网络结构。本专利技术克服了原有的单一状态设计的局限性问题,通过信号控制,可以大大缓解交通拥堵问题。本专利技术是通过以下技术方案达到上述目的:一种基于3DQN_PSER算法的单交叉口信号控制方法,包括如下步骤:(1)对城市道路交叉口各进口道卡口电警的过车数据进行统计;(2)对步骤(1)采集到的流量数据进行预处理,根据车牌号匹配的方法消除重复数据,并对缺失数据,按照短期内流量的时序相关性,采取前后流量数据的均值进行修复;(3)基于步骤(2)得到的各车道流量数据,生成OD矩阵,配置对应的路由数据文件,并根据实际交叉口拓扑结构生成路网文件,基于需要探测的车辆运行状态配置车道区域探测器;(4)通过离散交通状态编码技术设计路口的车辆动态流信息,组装成三维张量输入,并根据不同流向当前的信号状态,设计一维数组表示作为另一输入;(5)将相位方案库离散化,作为动作集合A,引入动作奖惩系数δ来满足相位最小最大绿灯时间约束,对信号灯状态转变进行设计以实现相位过渡;(6)对排队长度rqueue、累计等待时间rwaitTime、刹车次数rhalting和相位是否切换rphase四个指标进行系数加权,作为信号智能体的奖励函数;(7)基于以线为单位来调整一定范围内样本数据优先级的优先序列经验重放的方法,并结合DoubleDQN和DuelingDQN来优化深度Q学习算法,基于Adam优化器,并采用均方差作为损失函数,反复更新网络模型参数,寻找得到最优的配时方案。作为优选,所述步骤(1)具体为:基于城市道路交叉口安装的卡口和电子警察等视频检测系统,收集单交叉口的流量数据记录,按照分钟为单位时间对记录进行处理,根据车辆唯一标识,即车牌号,统计各进口道的过车数量;其中每条记录包含如下信息:device_ID、intersection_name、cameraposition、turnID、roadID、time。作为优选,所述步骤(4)具体为:(i)采用离散交通状态编码技术,将进口道从停车线位置开始划分成若干网络,并以网格内的车辆位置和速度信息组装成状态s,对于有H个进口道的典型四岔路口,状态空间大小是由该路口各进口道的网格信息确定,记为H×(L/c)×Y,其中,Y表示刻画交通状态的指标数目,L表示进口道检测器探测的区域长度;将该路口车辆的分布位置和对应未知的速度组装成三维张量;(ii)针对典型四岔路口的8个流向,设计一维数组作为信号灯状态,若信号灯当前执行某相位方案,其信号灯状态可能是[1,0,0,0,1,0,0,0],其中1表示某流向为绿灯信号,该数组作为算法模型的另一状态输入信息,通过全连接层的处理,再与经过三层卷积处理的交通流状态信息结合,然后进行一系列全连接层处理。作为优选,所述步骤(5)中,列举出所有无冲突情况下的相位方案库,信号智能体在每个决策点都会从动作方案集合A={0,1,2,3,4,5,6,7}中选择一种相位方案;如果选择的动作和当前相位方案相同,则执行当前绿灯相位τg秒,否则,需要先执行过渡相位(黄灯相位)τy秒,根据在决策点的选择会执行对应的相位方案;其中,根据相位最小绿灯时间和最大绿灯时间,设计了动作奖惩系数,并将其引入最终Q值的计算;动作奖惩系数如下所示:其中,其中,Gmin和Gmax分别表示最小绿灯时间和最大绿灯时间,Φ为奖惩尺度,取值需要结合奖励分布情况来设计;p1和p2表示相位方案中两流向的绿灯时间,且本式前提为p1<p2;在相位方案切换的过程中,会涉及信号灯灯色状态的转移,若当前信号灯执行方案一,由流向2和流向5组成,下一决策点选择的动作仍是方案一,则会继续执行当前方案τg秒;若下一决策点执行的动作是方案二,则在切换到方案二相位之前,会先执行对应的过渡相位τy秒,根据前后决策点的相位方案不同,执行的过渡相位也有所不同,若下一决策点执行方案五动作,则会保持流向2绿灯,而流向5变成黄灯过渡相位。作为优选,所述步骤(6)具体如下:(I)各车道在该决策点的排队长度之和rqueue;(II)相邻决策点之间的累计等待时间之差rwaitTime,若当前处于决策点k+1,此时的累计等待时间rwaitTime=Wk+1-Wk,如果rwaitTime<0,表明这段时间路网比之前畅通,反之则表明路网拥堵加重,此外等待时间是根据车辆的速度是否低于0.1m/s来判定的;(III)各车道在该决策点的刹车数量之和rhalting;(IV)当前决策点选择的动作是否会导致相位切换rphase,如果切换的话rphase=1,没有切换的话rphase=0;(V)综合以上指标,并结合相应的权重系数k1,k2,k3,k4,加权得到最终的奖励:r=k1*rqueue+k2*rwaitTime+k3*rhalting+k4*rphase本文档来自技高网...

【技术保护点】
1.一种基于3DQN_PSER算法的单交叉口信号控制方法,其特征在于,包括如下步骤:/n(1)对城市道路交叉口各进口道卡口电警的过车数据进行统计;/n(2)对步骤(1)采集到的流量数据进行预处理,根据车牌号匹配的方法消除重复数据,并对缺失数据,按照短期内流量的时序相关性,采取前后流量数据的均值进行修复;/n(3)基于步骤(2)得到的各车道流量数据,生成OD矩阵,配置对应的路由数据文件,并根据实际交叉口拓扑结构生成路网文件,基于需要探测的车辆运行状态配置车道区域探测器;/n(4)通过离散交通状态编码技术设计路口的车辆动态流信息,组装成三维张量输入,并根据不同流向当前的信号状态,设计一维数组表示作为另一输入;/n(5)将相位方案库离散化,作为动作集合A,引入动作奖惩系数δ来满足相位最小最大绿灯时间约束,对信号灯状态转变进行设计以实现相位过渡;/n(6)对排队长度r

【技术特征摘要】
1.一种基于3DQN_PSER算法的单交叉口信号控制方法,其特征在于,包括如下步骤:
(1)对城市道路交叉口各进口道卡口电警的过车数据进行统计;
(2)对步骤(1)采集到的流量数据进行预处理,根据车牌号匹配的方法消除重复数据,并对缺失数据,按照短期内流量的时序相关性,采取前后流量数据的均值进行修复;
(3)基于步骤(2)得到的各车道流量数据,生成OD矩阵,配置对应的路由数据文件,并根据实际交叉口拓扑结构生成路网文件,基于需要探测的车辆运行状态配置车道区域探测器;
(4)通过离散交通状态编码技术设计路口的车辆动态流信息,组装成三维张量输入,并根据不同流向当前的信号状态,设计一维数组表示作为另一输入;
(5)将相位方案库离散化,作为动作集合A,引入动作奖惩系数δ来满足相位最小最大绿灯时间约束,对信号灯状态转变进行设计以实现相位过渡;
(6)对排队长度rqueue、累计等待时间rwaitTime、刹车次数rhalting和相位是否切换rphase四个指标进行系数加权,作为信号智能体的奖励函数;
(7)基于以线为单位来调整一定范围内样本数据优先级的优先序列经验重放的方法,并结合DoubleDQN和DuelingDQN来优化深度Q学习算法,基于Adam优化器,并采用均方差作为损失函数,反复更新网络模型参数,寻找得到最优的配时方案。


2.根据权利要求1所述的一种基于3DQN_PSER算法的单交叉口信号控制方法,其特征在于:所述步骤(1)具体为:基于城市道路交叉口安装的卡口和电子警察等视频检测系统,收集单交叉口的流量数据记录,按照分钟为单位时间对记录进行处理,根据车辆唯一标识,即车牌号,统计各进口道的过车数量;其中每条记录包含如下信息:device_ID、intersection_name、cameraposition、turnID、roadID、time。


3.根据权利要求1所述的一种基于3DQN_PSER算法的单交叉口信号控制方法,其特征在于:所述步骤(4)具体为:
(i)采用离散交通状态编码技术,将进口道从停车线位置开始划分成若干网络,并以网格内的车辆位置和速度信息组装成状态s,对于有H个进口道的典型四岔路口,状态空间大小是由该路口各进口道的网格信息确定,记为H×(L/c)×Y,其中,Y表示刻画交通状态的指标数目,L表示进口道检测器探测的区域长度;将该路口车辆的分布位置和对应未知的速度组装成三维张量;
(ii)针对典型四岔路口的8个流向,设计一维数组作为信号灯状态,若信号灯当前执行某相位方案,其信号灯状态可能是[1,0,0,0,1,0,0,0],其中1表示某流向为绿灯信号,该数组作为算法模型的另一状态输入信息,通过全连接层的处理,再与经过三层卷积处理的交通流状态信息结合,然后进行一系列全连接层处理。


4.根据权利要求1所述的一种基于3DQN_PSER算法的单交叉口信号控制方法,其特征在于:所述步骤(5)中,列举出所有无冲突情况下的相位方案库,信号智能体在每个决策点都会从动作方案集合A={0,1,2,3,4,5,6,7}中选择一种相位方案;如果选择的动作和当前相位方案相同,则执行当前绿灯相位τg秒,否则,需要先执行过渡相位(黄灯相位)τy秒,根据在决策点的选择会执行对应的相位方案;其中,根据相位最小绿灯时间和最大绿灯时间,设计了动作奖惩系数,并将其引入最终Q值的计算;动作奖惩系数如下所示:
<...

【专利技术属性】
技术研发人员:刘志曹诗鹏沈阳杨曦沈国江
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1