一种基于深度强化学习算法的多智能体道路交通信号控制方法技术

技术编号:39068971 阅读:18 留言:0更新日期:2023-10-12 20:01
一种基于深度强化学习算法的道路交通信号控制优化方法,包括:根据路网环境信息和当前时刻路口车辆流量信息确认所述交叉口所处的状态信息;在原有MUDQN算法提出了多个动作空间,在不同的条件下,执行不同动作空间里的动作,并且提出了新的状态空间和新的奖励函数。利用经验回放池中存储的数据来训练我们的模型,使多个智能体最终达到NASH均衡状态。其中,该交通信号控制优化方法的输入参数为对应于所述信号灯的交叉口观测信息和相邻路口当前获得的奖励值,该交通信号控制模型的模块的输出参数为当前时刻所述信号灯的相位。输出参数为当前时刻所述信号灯的相位。输出参数为当前时刻所述信号灯的相位。

【技术实现步骤摘要】
一种基于深度强化学习算法的多智能体道路交通信号控制方法


[0001]本专利技术涉及一种交通信号控制方法,尤其涉及一种基于深度强化学习算法的多智能体道路交通信号控制方法。属于智慧交通车辆人工智能控制


技术介绍

[0002]近年来,交通拥堵浪费通行时间,加剧尾气排放,造成严重的经济损失。对交通信号进行控制能一定程度上缓解交通拥堵。目前,随着强化学习的快速发展,研究人员发现强化学习是解决交通信号控制问题最合适的框架,开始研究强化学习技术实现交通信号的协作。特别的,在大规模的道路网络中,交叉口之间的合作对于缓解交通拥堵至关重要。

技术实现思路

[0003]一种基于深度强化学习算法的多智能体道路交通信号控制方法的提出,目的是解决城市交通信号控制方案的不足,实现了充分利用城市道路资源,减少道路潜在的车堵塞问题,提高了车辆通过路口的效率和乘客的安全舒适度。
[0004]本专利技术的技术解决方案是这样实现的:
[0005]一种基于深度强化学习算法的多智能体道路交通信号控制方法,其特征在于,使用仿真软件SUMO创建多个不同岔路口道路环境,根据不同的岔路口设计不同的动作空间、状态空间和奖励函数,基于深度Q学习算法构建多智能体Q网络,然后训练直至收敛并且智能体之间达到Nash均衡,最后通过SUMO中的Traci接口达到和环境交互,该专利技术方法包括以下步骤:
[0006]步骤一、将大规模交通信号系统控制的交通路网构建为一个有向图,有向图的节点表示交通路口,边表示道路,大规模交通信号控制系统模型包括多个智能体,每个智能体与交通路网中的交通路口一一对应,猎取道路交叉口信息和交通车辆流量信息,根据以上数据用仿真软件对交通干线进行仿真,还原真实道路交叉口车辆交汇信息;
[0007]步骤二、从仿真环境中获取交叉口环境的信息,根据获取的环境信息设置深度强化学习模型的状态空间,状态空间作为深度强化学习模型的输入,深度强化学习模型的状态空间由大规模交通信号系统控制的各个交通路口的状态组成,模型的状态空间O表示为:
[0008][0009]其中,表示智能体i当前的动作A,表示智能体i的F个车流方向的等待车的车辆数,表示智能体i的相邻智能体准备去往智能体i的F*个车流方向的等待车的车辆数,智能体准备去往智能体i的F*个车流方向的等待车的车辆数,表示智能体i相邻的R个智能体当前的Q值,也称期望奖励值;
[0010]步骤三、设置深度强化学习模型的动作空间,模型的动作空间由大规模交通信号
系统控制的各个交通路口的动作组成,不同的智能体有不同的动作空间,并且每个智能体拥有两个动作空间A和A*,同一个智能体的两个状态空间A和A*的执行动作时长不同,用来应对道路不同时期的变化流量的情况,当路口等待车辆数大于交叉口流量阈值时,使用动作空间A,否则使用动作空间A*,四相位十字路口智能体i的动作空间表示为:
[0011]A
i
/A
i
*=[a1,a2,a3,a4],
[0012]其中,[a1,a2,a3,a4]分别为[WET,NST,WEL,NSL],WET代表东西直行通行,NST代表南北直行通行,WEL代表东西左转通行,NSL代表南北左转通行;
[0013]二相位闸道合流智能体j的动作空间表示为:
[0014]A
j
/A
j
*=[a1,a2][0015]其中[a1,a2]分别为[P,S],P表示可以通行,S表示不可以通行;
[0016]当智能体执行的动作发生变化时,即绿灯通行车道发生变化时需要插入执行黄灯相位,以减缓绿灯相位突然变化带来的车辆安全问题;
[0017]步骤四、设置深度强化学习模型的奖励值函数,当交叉口根据模型的输出做出相应的动作后,根据变化的环境信息给交叉口做出的动作进行打分也就是奖励值,不同智能体所处的环境不同,奖励函数也不同:
[0018](1)R1函数是指十字路口或者丁字路口的奖励函数:
[0019]R1=ω1*r
people
+ω2*r
vehicle
[0020]其中,ω1,ω2分别对应的权重,ω1+ω2=1;r
people
=∑
k
w
t
(k)


k
w
t
‑1(k),表示t时刻所有行人等待的总时长和t

1时刻道路上所有行人等待的总时长的差值,k表示该路口所有的人行道;r
vehicle
=∑
l
p
t
(l)


l
p
t
‑1(l),表示t时刻当前道路上所有车辆速度为0的总时长和t

1时刻道路上所有车辆速度为0的总时长的差值,l表示该路口所有的进车道;
[0021](2)闸道合流的奖励值函数R2:
[0022]R2=μ1*r
safety
+μ2*r
com
[0023]其中,r
safety
为安全子奖励,r
com
舒适子奖励,μ1,μ2分别为对应子奖励的权重,μ1+μ2=1;
[0024]r
safety
安全子奖励根据当前智能体动作做出第一次判断,当智能体做出动作S时,安全子奖励r
safety
=0;当智能体执行动作为P时,再根据车辆间的间距做出第二次判断,当车辆间距小于最小安全间距时,安全子奖励r
safety


100,当车辆间距大于最小安全间距时,舒适子奖励其中d
i,e
表示自车纵向位置,d
i,f
d
i,h
分别表示主车道前后车辆的纵向位置,s
i,e
表示自车纵向速度,s
i,f
,s
i,h
分别表示主车道前后车辆的纵向速度;
[0025]r
com
舒适子奖励,
[0026]其中r
wait
是指当前车辆的等待时长,r
dif
表示当前车辆的速度和主车道上海前后车辆的平均速度的差值,分别为对应子奖励的权重,
[0027]步骤五、初始化经验回放池,获取大规模交通信号系统控制的多个智能体的状态、当前状态下的动作、期望奖励值动作以及完成动作后下一个状态存入经验回放池,当经验回放池中的数据存储量大于最小存储量时,从中抽取一批存储的数据用以神经网络训练;每抽取一批数据训练称作一集,设置目标抽取的训练集数;
[0028]步骤六、构建深度神经网络来拟合状态

动作价值函数,神经网络的输入是由从仿真环境中获取的状态信息构成的状态空间,神经网络的输出为输入状态下的每个动作的Q值,即当前状态下每个动作的期望奖励值,其中智能体利用Q学习方程本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习算法的多智能体道路交通信号控制方法,其特征在于,使用仿真软件SUMO创建多个不同岔路口道路环境,根据不同的岔路口设计不同的动作空间、状态空间和奖励函数,基于深度Q学习算法构建多智能体Q网络,然后训练直至收敛并且智能体之间达到Nash均衡,最后通过SUMO中的Traci接口达到和环境交互,该发明方法包括以下步骤:步骤一、将大规模交通信号系统控制的交通路网构建为一个有向图,有向图的节点表示交通路口,边表示道路,大规模交通信号控制系统模型包括多个智能体,每个智能体与交通路网中的交通路口一一对应,猎取道路交叉口信息和交通车辆流量信息,根据以上数据用仿真软件对交通干线进行仿真,还原真实道路交叉口车辆交汇信息;步骤二、从仿真环境中获取交叉口环境的信息,根据获取的环境信息设置深度强化学习模型的状态空间,状态空间作为深度强化学习模型的输入,深度强化学习模型的状态空间由大规模交通信号系统控制的各个交通路口的状态组成,模型的状态空间O表示为:其中,表示智能体i当前的动作A,表示智能体i的F个车流方向的等待车的车辆数,表示智能体i的相邻智能体准备去往智能体i的F*个车流方向的等待车的车辆数,体准备去往智能体i的F*个车流方向的等待车的车辆数,表示智能体i相邻的R个智能体当前的Q值,也称期望奖励值;步骤三、设置深度强化学习模型的动作空间,模型的动作空间由大规模交通信号系统控制的各个交通路口的动作组成,不同的智能体有不同的动作空间,并且每个智能体拥有两个动作空间A和A*,同一个智能体的两个状态空间A和A*的执行动作时长不同,用来应对道路不同时期的变化流量的情况,当路口等待车辆数大于交叉口流量阈值时,使用动作空间A,否则使用动作空间A*,四相位十字路口智能体i的动作空间表示为:A
i
/A
i
*=[a1,a2,a3,a4],其中,[a1,a2,a3,a4]分别为[WET,NST,WEL,NSL],WET代表东西直行通行,NST代表南北直行通行,WEL代表东西左转通行,NSL代表南北左转通行;二相位闸道合流智能体j的动作空间表示为:A
j
/A
j
*=[a1,a2]其中[a1,a2]分别为[P,S],P表示可以通行,S表示不可以通行;当智能体执行的动作发生变化时,即绿灯通行车道发生变化时需要插入执行黄灯相位,以减缓绿灯相位突然变化带来的车辆安全问题;步骤四、设置深度强化学习模型的奖励值函数,当交叉口根据模型的输出做出相应的动作后,根据变化的环境信息给交叉口做出的动作进行打分也就是奖励值,不同智能体所处的环境不同,奖励函数也不同:(1)R1函数是指十字路口或者丁字路口的奖励函数:R1=ω1*r
people
+ω2*r
vehicle
其中,ω1,ω2分别对应的权重,ω1+ω2=1;r
people
=∑
k
w
t
(k)


k
w
t
‑1(k),表示t时刻所有行人等待的总时长和t

1时刻道路上所有行人等待的总时长的差值,k表示该路口所有的
人行道;r
veh...

【专利技术属性】
技术研发人员:刘丽娟司桦
申请(专利权)人:大连交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1