一种道路交叉口信号灯绿信比控制方法、装置和设备制造方法及图纸

技术编号:32013747 阅读:20 留言:0更新日期:2022-01-22 18:31
本发明专利技术公开了一种道路交叉口信号灯绿信比控制方法,其涉及交通信号控制领域,包括:通过检测器提取交叉口各进口道的车流量、平均车速和平均排队长度表征交通状态,在信号周期结束时上传数据;基于深度强化学习算法,以绿信比方案为动作,以平均延误时间最小为目标,使用深度全连接神经网络对实时交通流状态进行动作价值估计,选择价值最大的动作控制下一周期的信号配时;通过离线训练以及冻结训练的方式提高网络收敛的稳定性,使用探索率余弦衰减以及引入零奖赏延误因子提高网络的收敛能力,最后拷贝决策网络到实际信号控制机上。本发明专利技术充分考虑了常规检测器数据和倒计时显示器的因素,相对控制相位的方法来说更具有实用性,可以减少交通拥堵。可以减少交通拥堵。可以减少交通拥堵。

【技术实现步骤摘要】
一种道路交叉口信号灯绿信比控制方法、装置和设备


[0001]本专利技术涉交通信号控制
,特别涉及一种基于深度强化学习的道路交叉口信号灯绿信比控制方法、装置和计算机设备。

技术介绍

[0002]当前大部分城市的交叉口信号灯仍然在使用传统的分段定时控制方法,虽然简单但却无法适应实时变化的交通流,容易造成交通拥堵。随着智慧城市建设的推进,对城市道路的信控交叉口进行自适应配时优化控制已经成为一个研究热点,以遗传算法为代表的智能寻优算法,以模糊控制为代表的模糊逻辑算法,以Petri网为代表的图论算法,以Q学习为代表的强化学习算法是当前的几种主流解决方案。其中,深度强化学习融合了深度神经网络强大的感知能力和强化学习优异的序贯决策能力,通过与环境交互反馈寻找最优控制策略,在解决城市交通信号控制这种复杂的系统优化问题方面有着独特的优势。
[0003]目前,使用深度强化学习对信号灯进行控制的研究主要用速度矩阵和位置矩阵定义交通状态,通过切换相位或直接增减相位绿灯时长控制信号灯。在当前的技术条件下,这种方式对交通状态的提取成本较高,且没有考虑实际交叉口可能存在倒计时显示器,同时频繁切换相位还会增加交通事故的风险,所以该方法在实际应用时受到了一定的限制。

技术实现思路

[0004]基于此,针对现有深度强化学习方法在实际应用中交通状态提取成本高,难以应用在有倒计时显示器的路口,以及当前探索率的线性和指数衰减方法容易造成网络收敛效果差等问题,本专利技术提供了一种基于深度强化学习的道路交叉口信号灯绿信比控制方法、装置和计算机设备。
[0005]本专利技术实施例提供一种道路交叉口信号灯绿信比控制方法,包括:
[0006]构建深度强化学习模型;其中,所述深度强化学习模型的四要素包括:状态:各进口道在信号周期内的车流量、平均车速、平均排队长度;动作:根据交叉口参数及绿时约束条件,计算出不同的绿信比配时方案;策略:使用ε

greedy贪心策略,探索率随着训练时长动态余弦衰减;奖赏:零延误时间因子与交叉口平均延误时间之差;
[0007]获取训练数据;所述训练数据包括:实际道路交叉口每条进口道在一个信号周期内的车流量、平均车速、平均排队长度;
[0008]通过训练数据,对深度强化学习模型进行训练,获得最优决策神经网络;
[0009]根据最优决策神经网络,确定道路交叉口信号灯的最优绿信比。
[0010]在其中一个实施例中,一种道路交叉口信号灯绿信比控制方法,还包括:
[0011]根据真实的平面十字交叉口的几何渠化结构、通行限制要求、交通流检测器铺设信息,在Vissim软件中建立仿真路网;
[0012]基于仿真路网,通过交通流检测器获取各进口道在信号周期内的车流量、平均车速、平均排队长度,并构建基于车流量、平均车速、平均排队长度的状态矩阵。
[0013]在其中一个实施例中,一种道路交叉口信号灯绿信比控制方法,还包括:
[0014]对基于车流量、平均车速、平均排队长度的状态矩阵进行线性归一化处理。
[0015]在其中一个实施例中,所述根据交叉口参数及绿时约束条件,计算出不同的绿信比配时方案,具体包括:
[0016]根据道路交叉口设计的饱和流量与当前实际检测流量,计算出最大流量比之和Y:
[0017][0018]计算在一个周期内的信号损失时间L
e

[0019][0020]利用韦伯斯特公式,计算最佳周期C:
[0021][0022]计算有效绿灯时间G
e

[0023]G
e
=C

L
e
[0024]根据最小绿灯时间g0、最大绿灯时间g1,绿灯时间取值最小间隔g2,计算各相位绿信比:
[0025][0026]确定绿信比配时方案P:
[0027][k,C,T
a
(T
c1
,T
c2
,
···
T
ci
),(λ0,λ1···
λ
i
)][0028]其中,n为相位数目;i为当前相位;Y
i
为当前相位的最大流量比;f
i1
为当前相位第一方向的实测小时流量;f
i2
为当前相位第一方向的饱和小时流量;f
i3
为当前相位第二方向的实测小时流量;f
i4
为当前相位第二方向的饱和小时流量;L
s
为车辆启动损失时间,取值为0~3秒之间,此处取0秒;T
c
为清场全红时间,取值为2秒,此处取2秒;T
a
为黄灯时间,取值取2~3秒,此处取3秒;最佳周期C取值5的倍数;T
i
为相位绿灯时长,且各相位绿灯时长之和为有效绿灯时长G
e
;k为方案编号。
[0029]在其中一个实施例中,所述探索率ε的表达式为:
[0030][0031]其中,探索率ε的动态衰减曲线符合三角余弦函数变化规律;ε0为最小探索率,ε1为最大探索率,m为当前迭代回合,M为最大迭代回合。
[0032]在其中一个实施例中,所述零延误时间因子与交叉口平均延误时间d之差的表达式为:
[0033][0034]其中,零延误时间因子δ为在随机选择的绿信比配时方案下、多次测试周期时长后得到的交叉口平均延误时间;L
n
为交叉口进口道数目,j为当前进口道,d
j
为当前进口道的周期平均延误时间。
[0035]在其中一个实施例中,所述通过训练数据,对深度强化学习模型进行训练,获得最优决策神经网络,具体包括:
[0036]基于仿真路网、深度强化学习模型、训练数据,并设置各进口道输入的交通流数据,包括各车型比例、各时段的小时交通流量,通过DQN算法进行一定时长的离线训练,得到一个决策神经网络;
[0037]其中,所述DQN算法主干网络由3层全连接层深度神经网络构成,其最后一层的节点数与绿信比配时方案数目一致。
[0038]在其中一个实施例中,所述DQN算法,包括:
[0039]初始化训练过程中的超参数学习率、折扣率、探索率、测试频率、经验池大小;
[0040]初始化在线网络和目标网络为相同的权重,且权值为服从高斯正态分布的随机值;
[0041]开始迭代Episode,重置Vissim环境,并随机运行5个仿真周期进行热身后正式训练;
[0042]智能体获取交通流参数表征状态并线性归一化处理;
[0043]根据归一化状态,智能体使用ε

greed策略选择一种最优动作;
[0044]根据最优动作,智能体选择对应的绿信比方案配时运行一周期,得到新状态、延误时间;
[0045]将延误时间转换为奖赏值,判断是否达到回合结束条件,得到结束标志;
[0046]存本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种道路交叉口信号灯绿信比控制方法,其特征在于,包括:构建深度强化学习模型;其中,所述深度强化学习模型的四要素包括:状态:各进口道在信号周期内的车流量、平均车速、平均排队长度;动作:根据交叉口参数及绿时约束条件,计算出不同的绿信比配时方案;策略:使用ε

greedy贪心策略,探索率随着训练时长动态余弦衰减;奖赏:零延误时间因子与交叉口平均延误时间之差;获取训练数据;所述训练数据包括:实际道路交叉口每条进口道在一个信号周期内的车流量、平均车速、平均排队长度;通过训练数据,对深度强化学习模型进行训练,获得最优决策神经网络;根据最优决策神经网络,确定道路交叉口信号灯的最优绿信比。2.如权利要求1所述的道路交叉口信号灯绿信比控制方法,其特征在于,还包括:根据真实的平面十字交叉口的几何渠化结构、通行限制要求、交通流检测器铺设信息,在Vissim软件中建立仿真路网;基于仿真路网,通过交通流检测器获取各进口道在信号周期内的车流量、平均车速、平均排队长度,并构建基于车流量、平均车速、平均排队长度的状态矩阵。3.如权利要求2所述的道路交叉口信号灯绿信比控制方法,其特征在于,还包括:对基于车流量、平均车速、平均排队长度的状态矩阵进行线性归一化处理。4.如权利要求1所述的道路交叉口信号灯绿信比控制方法,其特征在于,所述根据交叉口参数及绿时约束条件,计算出不同的绿信比配时方案,具体包括:根据道路交叉口设计的饱和流量与当前实际检测流量,计算出最大流量比之和Y:计算在一个周期内的信号损失时间L
e
:利用韦伯斯特公式,计算最佳周期C:计算有效绿灯时间G
e
:G
e
=C

L
e
根据最小绿灯时间g0、最大绿灯时间g1,绿灯时间取值最小间隔g2,计算各相位绿信比λ
i
:确定绿信比配时方案P:[k,C,T
a
(T
c1
,T
c2
,

T
ci
),(λ0,λ1…
λ
i
)]其中,n为相位数目;i为当前相位;Y
i
为当前相位的最大流量比;f
i1
为当前相位第一方
向的实测小时流量;f
i2
为当前相位第一方向的饱和小时流量;f
i3
为当前相位第二方向的实测小时流量;f
i4
为当前相位第二方向的饱和小时流量;L
s
为车辆启动损失时间,取值为0~3秒之间,此处取0秒;T
c
为清场全红时间,取值为2秒,此处取2秒;T
a
为黄灯时间,取值取2~3秒,此处取3秒;最佳周期C取值5的倍数;T
i
为相位绿灯时长,且各相位绿灯时长之和为有效绿灯时长G
e
;k为方案编号。5.如权利要求1所述的道路交叉口信号灯绿信比控制方法,其特征在于,所述探索率ε的表达式为:其中,探索率ε的动态衰减曲线符合三角余弦函数变化规律;ε0为最小探索率,ε1为最大探索率,m为...

【专利技术属性】
技术研发人员:任安虎李珊任洋洋王宇林
申请(专利权)人:西安工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1