【技术实现步骤摘要】
一种道路交叉口信号灯绿信比控制方法、装置和设备
[0001]本专利技术涉交通信号控制
,特别涉及一种基于深度强化学习的道路交叉口信号灯绿信比控制方法、装置和计算机设备。
技术介绍
[0002]当前大部分城市的交叉口信号灯仍然在使用传统的分段定时控制方法,虽然简单但却无法适应实时变化的交通流,容易造成交通拥堵。随着智慧城市建设的推进,对城市道路的信控交叉口进行自适应配时优化控制已经成为一个研究热点,以遗传算法为代表的智能寻优算法,以模糊控制为代表的模糊逻辑算法,以Petri网为代表的图论算法,以Q学习为代表的强化学习算法是当前的几种主流解决方案。其中,深度强化学习融合了深度神经网络强大的感知能力和强化学习优异的序贯决策能力,通过与环境交互反馈寻找最优控制策略,在解决城市交通信号控制这种复杂的系统优化问题方面有着独特的优势。
[0003]目前,使用深度强化学习对信号灯进行控制的研究主要用速度矩阵和位置矩阵定义交通状态,通过切换相位或直接增减相位绿灯时长控制信号灯。在当前的技术条件下,这种方式对交通状态的提取成本较高,且没有考虑实际交叉口可能存在倒计时显示器,同时频繁切换相位还会增加交通事故的风险,所以该方法在实际应用时受到了一定的限制。
技术实现思路
[0004]基于此,针对现有深度强化学习方法在实际应用中交通状态提取成本高,难以应用在有倒计时显示器的路口,以及当前探索率的线性和指数衰减方法容易造成网络收敛效果差等问题,本专利技术提供了一种基于深度强化学习的道路交叉口信号灯绿信比控制方法、装 ...
【技术保护点】
【技术特征摘要】
1.一种道路交叉口信号灯绿信比控制方法,其特征在于,包括:构建深度强化学习模型;其中,所述深度强化学习模型的四要素包括:状态:各进口道在信号周期内的车流量、平均车速、平均排队长度;动作:根据交叉口参数及绿时约束条件,计算出不同的绿信比配时方案;策略:使用ε
‑
greedy贪心策略,探索率随着训练时长动态余弦衰减;奖赏:零延误时间因子与交叉口平均延误时间之差;获取训练数据;所述训练数据包括:实际道路交叉口每条进口道在一个信号周期内的车流量、平均车速、平均排队长度;通过训练数据,对深度强化学习模型进行训练,获得最优决策神经网络;根据最优决策神经网络,确定道路交叉口信号灯的最优绿信比。2.如权利要求1所述的道路交叉口信号灯绿信比控制方法,其特征在于,还包括:根据真实的平面十字交叉口的几何渠化结构、通行限制要求、交通流检测器铺设信息,在Vissim软件中建立仿真路网;基于仿真路网,通过交通流检测器获取各进口道在信号周期内的车流量、平均车速、平均排队长度,并构建基于车流量、平均车速、平均排队长度的状态矩阵。3.如权利要求2所述的道路交叉口信号灯绿信比控制方法,其特征在于,还包括:对基于车流量、平均车速、平均排队长度的状态矩阵进行线性归一化处理。4.如权利要求1所述的道路交叉口信号灯绿信比控制方法,其特征在于,所述根据交叉口参数及绿时约束条件,计算出不同的绿信比配时方案,具体包括:根据道路交叉口设计的饱和流量与当前实际检测流量,计算出最大流量比之和Y:计算在一个周期内的信号损失时间L
e
:利用韦伯斯特公式,计算最佳周期C:计算有效绿灯时间G
e
:G
e
=C
‑
L
e
根据最小绿灯时间g0、最大绿灯时间g1,绿灯时间取值最小间隔g2,计算各相位绿信比λ
i
:确定绿信比配时方案P:[k,C,T
a
(T
c1
,T
c2
,
…
T
ci
),(λ0,λ1…
λ
i
)]其中,n为相位数目;i为当前相位;Y
i
为当前相位的最大流量比;f
i1
为当前相位第一方
向的实测小时流量;f
i2
为当前相位第一方向的饱和小时流量;f
i3
为当前相位第二方向的实测小时流量;f
i4
为当前相位第二方向的饱和小时流量;L
s
为车辆启动损失时间,取值为0~3秒之间,此处取0秒;T
c
为清场全红时间,取值为2秒,此处取2秒;T
a
为黄灯时间,取值取2~3秒,此处取3秒;最佳周期C取值5的倍数;T
i
为相位绿灯时长,且各相位绿灯时长之和为有效绿灯时长G
e
;k为方案编号。5.如权利要求1所述的道路交叉口信号灯绿信比控制方法,其特征在于,所述探索率ε的表达式为:其中,探索率ε的动态衰减曲线符合三角余弦函数变化规律;ε0为最小探索率,ε1为最大探索率,m为...
【专利技术属性】
技术研发人员:任安虎,李珊,任洋洋,王宇林,
申请(专利权)人:西安工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。