一种基于深度强化学习的交通信号配时优化方法技术

技术编号:28207915 阅读:34 留言:0更新日期:2021-04-24 14:39
本发明专利技术公开了一种基于深度强化学习的交通信号配时优化方法,在该方案中,信号灯可以根据交叉口各方向的交通流状态输出适当的相位,并动态调整相位长度。具体来说,首先采用PPO算法来提高模型的收敛速度。然后,利用DTSE方法定义车辆状态,并且详细阐述了状态、动作和奖励的设计。最后,通过交通仿真平台SUMO对实际交通数据进行了实验。结果表明,与传统的定时控制相比,该方案能有效地减少车辆在各种交通流模式下的等待时间和排队长度。交通流模式下的等待时间和排队长度。交通流模式下的等待时间和排队长度。

【技术实现步骤摘要】
一种基于深度强化学习的交通信号配时优化方法


[0001]本专利技术涉及交通信号控制领域、深度学习领域、强化学习领域,具体专利技术是一种基于深度强化学习的交通信号配时优化方法。该方法首先通过交通摄像头和信号灯控制器分别得到车辆和信号灯的状态信息作为神经网络的输入,然后通过网络输出一个合适的信号相位,最后由强化学习根据奖励方程的数值来调整神经网络参数。在保证交通安全的情况下,学习控制规则,调节信号灯的输出相位,通过最小化交叉口各方向车辆的排队长度和等待时间,从而提高路网的通行效率。

技术介绍

[0002]城市道路交叉口的管理主要是通过控制信号灯来实现的。然而,使用信号灯调节交通的同时也会带来许多问题,如车辆延误时间长、能源浪费大,甚至发生交通事故。早期的交通信号控制要么部署一个固定的程序而不考虑实时交通,要么考虑非常有限的交通维度。如定时控制和感应控制。定时控制一般采用Webster配时方法,通过最小化车辆延误来选择最佳的周期时间,并使信号灯时间和每个相位的最大流量成正比例分布。感应控制通过在每个车道入口处预设线圈来测量交通流量,并通过调整信号灯的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的信号配时优化方法,其特征在于,通过交通摄像头获取交叉口各方向的车辆和信号灯的状态信息作为神经网络的输入,然后通过网络输出一个合适的信号相位,最后由强化学习根据奖励方程的数值来调整神经网络参数。该方法在保证交通安全的情况下,学习控制规则,调节信号灯的输出相位,通过最小化交叉口各方向车辆的排队长度和等待时间,提高路网通行效率。具体实现过程描述为以下步骤:步骤1:交叉口车辆和信号灯的状态信息获取信号灯决策模型需要获取的信息包括两方面:一是交叉口各方向车辆的状态信息。二是交叉口的相位时间和相位序号信息。车辆状态信息通过卷积网络进行特征提取后,与相位时间、相位序号共同组成决策模型的输入。步骤2:信号灯输出相位动作空间的制定信号灯动作空间设计考虑两个因素:首先,基于交通流信息,信号灯跳转到任何一个绿灯相位。其次,绿灯相位的持续时间根据排队长度进行动态调整。由于右转与其他方向不冲突,因此右转方向的信号设置为常绿状态。对于其他方向的交通流,信号相位模式分为南北直行、南北左转、东西直行、东西左转等n个相位,因此n个相位的集合构成本次设计的动作空间。步骤3:信号灯决策网络奖励方程的制定在强化学习的过程中,每个动作的奖励值都能反映当前状态对该动作的偏好。对于奖励方程的定义,从两个维度来进行考虑。首先,考虑交叉口连续动作之间车辆累计等待时间的变化。当信号灯输出一个动作时,将得到一个奖赏r
t1
。在此过程中获得的奖励定义为公式:r
t1
=W
t

W
t+1
其中,W
t
和W
t+1
分别代表作用a
t
前后交叉口所有车辆的累计等待时间,W
t
的含义见下式:式中,ε为交叉口排队车辆数,N为排队车辆总数,w
s,e
为车辆从停车时刻到发车时刻的累计总等待时间。在行动前后的累计等待时间变化越大,奖励值越大。其次,为平衡交叉口各方向的交通流,达到安全行车的目的,在定义奖励方程时,为避免长时间的绿灯时间,制定了惩罚项,如下式所示:r
t2


max{(T
t

αT
maxgreentime
),0}式中,T
t
表示t时刻绿灯的持续时间。预定义的最大绿灯时间为T
maxgreentime
,α为系数。当多个绿灯相位连续出现并超过设定值时,将对该动作进行惩罚,以避免交叉口各方向的交通流不平衡。综合上述,最终的奖励方程如下式:R
t
=r
t1
+r
t2
=(W
t

W
t+1
)

max{(T
t

αT
maxgreentime
),0}步骤4:信号灯决策模型搭建系统输入状态是包含车辆速度、位置、转向信息的矩阵以及信号...

【专利技术属性】
技术研发人员:张利国崔铜巢马子博江丰尧邓文星
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1