当前位置: 首页 > 专利查询>西华大学专利>正文

基于深度强化学习的交通信号灯配时方法、装置及设备制造方法及图纸

技术编号:38528790 阅读:25 留言:0更新日期:2023-08-19 17:03
本发明专利技术公开了基于深度强化学习的交通信号灯配时方法、装置及设备,涉及交通控制技术领域,本发明专利技术通过根据当前路口车道的队列长度预先分配各个相位的绿灯时间,以此有效降低路口车辆的总体等待时间,本发明专利技术在每个相位绿灯时间开始前用深度强化学习的方法通过与交通状况交互训练后反馈的结果好坏来进一步调整相位绿灯时长,以实现实时预测当前相位最优的绿灯时间。进一步,本发明专利技术为了能够较好地适应车流的不确定性和复杂性,在状态的设计上加入了相位的机制,以避免不同路口车辆数相同时,各路口处于不同相位绿灯时刻的情况,从而使训练更稳定,从而有效的适应在复杂变化的车流情况下合理的分配交通信号灯的绿灯时长,以降低车辆在路口的等待时间。车辆在路口的等待时间。车辆在路口的等待时间。

【技术实现步骤摘要】
基于深度强化学习的交通信号灯配时方法、装置及设备


[0001]本专利技术涉及交通控制
,更具体地说,它涉及一种基于深度强化学习的交通信号灯配时方法、装置及设备。

技术介绍

[0002]随着经济水平的不断发展,车辆在人们的日常生活中越来越普及,这也给交通道路控制(Traffic Signal Control,TSC)带来了更多的挑战。传统的TSC大多采用固定配时的算法,但固定配时算法常常无法合理的根据当前车流量的实际情况合理的分配红绿灯的时间,特别是当车流发生不规则变化时,固定配时将无法满足车辆的通行需求,往往会导致路口的严重拥堵。
[0003]强化学习算法可以分为基于概率的学习算法、基于价值的学习算法和将概率学习和价值学习结合起来的演员

评论家算法。现有技术提出了一种基于Policy gradient的强化学习方法来调整交通信号灯的配时方案,使用DQN来选择红绿灯的状态,此外现有技术还采用的一种基于深度确定性策略梯度的算法来对交通信号灯进行配时。然而,上述现有技术方案存在训练过程中的难收敛问题、训练结果容易陷入局部最优,以及算法缺乏稳定性等问题。深度强化学习在交通信号灯控制中广泛应用,但是,激励函数的设置一直存在争议,因为车辆延误时间是一个长期的奖励,无法直接用于强化学习。例如现有技术提出将奖励值设置为各个交通性能指标的加权和,但权重的设置无法量化。此外,目前的交通信号灯控制方案大多使用相位切换机制或直接分配绿灯时间,降低了车辆延迟的效果。

技术实现思路

[0004]本专利技术的目的是提供基于深度强化学习的交通信号灯配时方法、装置及设备,本专利技术通过根据当前路口车道的队列长度预先分配各个相位的绿灯时间,以此有效降低路口车辆的总体等待时间,但是预先分配的各个相位绿灯时间只能在固定的周期时间内进行调整,无法适应实时变化的车流情况。为此,本专利技术在每个相位绿灯时间开始前用深度强化学习的方法通过与交通状况交互训练后反馈的结果好坏来进一步调整相位绿灯时长,以实现实时预测当前相位最优的绿灯通行时间。除此之外,本专利技术为了能够较好地适应车流的不确定性和复杂性,在状态的设计上加入了相位的机制,以避免不同路口车辆数相同时,各路口处于不同相位绿灯时刻的情况,从而使训练更稳定,故此,本专利技术通过以上的方法可以有效的适应在复杂变化的车流情况下合理的分配交通信号灯的绿灯时长,以降低车辆在路口的等待时间。
[0005]本专利技术的上述技术目的是通过以下技术方案得以实现的:
[0006]本申请的第一方面,提供了一种基于深度强化学习的交通信号灯配时方法,方法包括:
[0007]获取当前时刻路口车辆的队列长度以及当前时刻路口车道所处的相位,其中一个路口包括四个相位,相位表示车道的通行状态;
[0008]以路口车辆的延误时间和车辆的队列长度最小为目标函数,建立单个路口的信号灯的优化模型;
[0009]预设信号灯Agent的状态、动作和奖励,基于信号灯Agent和DDPG算法,初始化马尔可夫决策模型并进行训练;
[0010]根据当前时刻路口各相位的车辆的队列长度,按比例预分配车道各相位的绿灯时间;
[0011]将当前时刻路口的状态输入训练好的马尔可夫决策模型,根据马尔可夫决策模型输出的动作调整车道各相位的绿灯时间,其中动作是以降低路口车辆的队列长度为目标选择各相位的最优绿灯时间;
[0012]在所选择的最优绿灯时间结束后,获取当前路口的状态和奖励值,并将其作为经验存储到经验池中,从经验池中抽取一定数量的经验,并基于DDPG算法更新马尔可夫决策模型的神经网络;
[0013]基于更新后的马尔可夫决策模型的输出,调整各相位的绿灯时间。
[0014]在一种实现方案中,所述优化模型的表达式为在一种实现方案中,所述优化模型的表达式为其中,T
delay
(X)表示路口的延迟时间;ρ(X)表示路口车辆的队列长度,n表示单个路口的车道数,X表示信号灯Agent总的控制过程,λ表示绿信比,T表示信号灯灯色轮流显示一遍的周期时长,μ表示各相位绿灯的切换,其中,g表示各相位绿灯的有效时间,d
k
表示车辆的延迟时间。
[0015]在一种实现方案中,路口的延迟时间的表达式为在一种实现方案中,路口的延迟时间的表达式为其中,k表示路口的第一个入口道,r表示路口的所有入口,q
k
表示路口入口k的道路交通流量,d
k
(w,λ)d
w
表示延迟函数,w表示车流量。
[0016]在一种实现方案中,路口车辆的队列长度的计算式为在一种实现方案中,路口车辆的队列长度的计算式为其中,t=1表示第一个信号周期,f=1表示第一个相位,F为最大相位数,n为单个路口的车道数,为当前相位f道路k在t时刻的队列车辆数,q表示车辆与车辆的平均间隔距离。
[0017]在一种实现方案中,预设信号灯Agent的状态的表达式为在一种实现方案中,预设信号灯Agent的状态的表达式为其中,t表示当前时刻,n表示当前路口的车道数目,P
s
表示当前处于s相位,L
max
为归一化因子。
[0018]在一种实现方案中,预设信号灯Agent的动作的表达式为A=x+αt
gap
,其中,x表示按比例预分配的各相位的绿灯时间,t
gap
放大合理的范围的时间值,α表示放大系数。
[0019]在一种实现方案中,预设信号灯Agent的动作的表达式为其中,L
i
表示绿灯时间结束后第i个车道的队列长度,n表示车道数。
[0020]在一种实现方案中,所述马尔可夫决策模型的神经网络包括动作网络和评论家网络,其中,利用策略梯度算法对动作网络的网络参数进行更新,利用时序差分算法对评论家
网络的网络参数进行更新。
[0021]本申请的第二方面,提供了一种基于深度强化学习的交通信号灯配时装置,装置包括:
[0022]数据获取模块,用于获取当前时刻路口车辆的队列长度以及当前时刻路口车道所处的相位,其中一个路口包括四个相位,相位表示车道的通行状态;
[0023]优化模型建立模块,用于以路口车辆的延误时间和车辆的队列长度最小为目标函数,建立单个路口的信号灯的优化模型;
[0024]预设模块,用于预设信号灯Agent的状态、动作和奖励,基于信号灯Agent和DDPG算法,初始化马尔可夫决策模型并进行训练;
[0025]绿灯时间预分配模块,用于根据当前时刻路口各相位的车辆的队列长度,按比例预分配车道各相位的绿灯时间;
[0026]绿灯时间调整模块,用于将当前时刻路口的状态输入训练好的马尔可夫决策模型,根据马尔可夫决策模型输出的动作调整车道各相位的绿灯时间,其中动作是以降低路口车辆的队列长度为目标选择各相位的最优绿灯时间;
[0027]网络更新模块,用于在所选择的最优绿灯时间结束后,获取当前路口的状态和奖励值,并将本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于深度强化学习的交通信号灯配时方法,其特征在于,方法包括:获取当前时刻路口车辆的队列长度以及当前时刻路口车道所处的相位,其中一个路口包括四个相位,相位表示车道的通行状态;以路口车辆的延误时间和车辆的队列长度最小为目标函数,建立单个路口的信号灯的优化模型;预设信号灯Agent的状态、动作和奖励,基于信号灯Agent和DDPG算法,初始化马尔可夫决策模型并进行训练;根据当前时刻路口各相位的车辆的队列长度,按比例预分配车道各相位的绿灯时间;将当前时刻路口的状态输入训练好的马尔可夫决策模型,根据马尔可夫决策模型输出的动作调整车道各相位的绿灯时间,其中动作是以降低路口车辆的队列长度为目标选择各相位的最优绿灯时间;在所选择的最优绿灯时间结束后,获取当前路口的状态和奖励值,并将其作为经验存储到经验池中,从经验池中抽取一定数量的经验,并基于DDPG算法更新马尔可夫决策模型的神经网络;基于更新后的马尔可夫决策模型的输出,调整各相位的绿灯时间。2.根据权利要求1所述的方法,其特征在于,所述优化模型的表达式为其中,T
delay
(X)表示路口的延迟时间;ρ(X)表示路口车辆的队列长度,n表示单个路口的车道数,X表示信号灯Agent总的控制过程,λ表示绿信比,T表示信号灯灯色轮流显示一遍的周期时长,μ表示各相位绿灯的切换,其中,g表示各相位绿灯的有效时间,d
k
表示车辆的延迟时间。3.根据权利要求2所述的方法,其特征在于,路口的延迟时间的表达式为其中,k表示路口的第一个入口道,r表示路口的所有入口,q
k
表示路口入口k的道路交通流量,d
k
(w,λ)d
w
表示延迟函数,w表示车流量。4.根据权利要求2所述的方法,其特征在于,路口车辆的队列长度的计算式为其中,t=1表示第一个信号周期,f=1表示第一个相位,F为最大相位数,n为单个路口的车道数,N
fk
(t)为当前相位f道路k在t时刻的队列车辆数,q表示车辆与车辆的平均间隔距离。5.根据权利要求1所述的方法,其特征在于,预设信号灯Agent的状态的表达式为其中,t表示当前时刻,n表...

【专利技术属性】
技术研发人员:周建鸿黄裕民汪云翔苏航刘国锦熊彪宏牛宪华
申请(专利权)人:西华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1