一种基于深度强化学习的单点交叉口信号配时优化方法技术

技术编号:20121566 阅读:40 留言:0更新日期:2019-01-16 12:44
本发明专利技术公开了一种基于深度强化学习算法对单点交叉口进行自适应信号配时优化的方法,旨在通过实际道路数据,利用深度强化学习对单点交叉口进行仿真配时优化,并最终将仿真方案应用于实际道路,该方法克服了现有自适应信号配时方法的弊端,提供了一种可以进行高维输入,快速收敛的一种新颖算法。在实施本方法的过程中,首先对原始原始数据进行矩阵化处理,通过经验回放策略随机抽取输入数据,并利用ε‑贪婪策略对强化学习的动作进行选择,通过不断地迭代训练,最终得到一个信号配时的最优方案。

A Signal Timing Optimization Method for Single-Point Intersection Based on Deep Reinforcement Learning

The invention discloses a method of adaptive signal timing optimization for single-point intersections based on deep reinforcement learning algorithm. The purpose is to optimize the simulation timing for single-point intersections by using deep reinforcement learning based on actual road data, and finally apply the simulation scheme to actual roads. The method overcomes the drawbacks of the existing adaptive signal timing method, and provides an available method. A novel algorithm for fast convergence of high-dimensional input. In the process of implementing this method, firstly, the original data is matrix processed, the input data is randomly extracted by experience playback strategy, and the action of reinforcement learning is selected by using the strategy of

【技术实现步骤摘要】
一种基于深度强化学习的单点交叉口信号配时优化方法
本专利技术公开了一种对单点信号交叉口进行控制优化的深度强化学习方法,属于智能交通

技术介绍
随着世界经济的发展和城市化的快速推进,城市的规模以及人口也在不断地扩大、增加。虽然城市的扩张一定程度上促进了经济的发展,但是越来越多的私家车的出现造成了城市交通的拥堵。而为了加强对城市道路的管理,减少交通事故及拥堵的发生,需要在交叉口设置交通信号灯,从而提高道路使用率,改善交通状况。目前的交通信号控制大致分为三类:(1)固定信号配时。这种配时策略根据以往的交通数据信息,设置好固定的绿信比及信号周期,它的优点是成本低,可以对流量较小的道路进行管控,但是不适用于流量较大的道路。(2)感应信号配时。这种配时策略没有固定的绿信比和相位时长,其工作原理是在车道进口设置车辆到达检测器,检测道路的车流量。在这种策略下,信号灯的周期、绿信比及相位变化会根据交通路口的交通流量的需要变化而变化,控制方式比较灵活。但是其缺点也比较明显,因为需要安装检测器,它的安装及维护成本较高。(3)自适应信号配时。这种配时策略和感应信号配时类似,也是通过检测器检测到交通流信息,然后将这些数据实时的通过网络传到上位机,上位机实时的产生最佳的绿灯配时方案,并付诸实施,这种策略可以将一段时间内汽车的放行量达到最大,或者使其它交通控制评价指标如延误、停车次数等最小。这种策略可以对交叉口的信号机进行最优或次最优的信号配时优化,使其运行方案可以根据交通流的变化而自适应的调整,从而提高车辆在交叉口的通行效率。而目前的自适应信号控制算法主要有以下几种:(1)模糊算法。这种算法可以把信号控制经验用模糊原则表达出来,从而实现决策推理的过程。Pappis等人就将模糊控制应用在交通控制上,通过建立相应的模糊规则从而实现对各种交通状况进行模糊控制。该方法可以应用在单点交叉口甚至区域交通控制中,但是这种方法不能够充分表示实时交通的不确定性。(2)遗传算法。常云涛等人提出的基于遗传算法的交通配时信号优化方法整合了基于延时和宽带模型方法的特点,同时也对信号周期、绿信比、相位差和相序进行了优化。但是遗传算法的计算量太大,很难做到实时信息的反馈与优化,并且其优化参数难以确定。(3)数据驱动控制。其在不能完全获取交通系统状态信息、对交通系统内部机理不理解的情况下可以自主寻找隐藏在系统中的控制信息,它具有无模型、自学习的特点。但是其对复杂交通系统的控制仍然存在许多的不足,例如鲁棒性较差,不够稳定等。强化学习算法应用在交通领域的时间比较早,可以对简单的交通信号配时进行控制优化,但是对于传统的强化学习算法来说,虽然它可以解决简单的控制问题,由于其本身算法的限制,它不能解决输入维度高的问题,同时计算过程十分复杂繁琐,所以不适用于现今的交通信号控制。
技术实现思路
1.专利技术目的本专利技术针对当前城市道路在交通流量比较大的时候容易形成交通拥堵的现状,提出一种基于深度强化学习的交通信号优化方法,该方法可在复杂交通环境下对交通信号配时进行优化,可以有效地减少交通拥堵,提高通行效率。2.本专利技术所采用的技术方案本专利技术是一种基于SUMO交通仿真软件,通过深度强化学习的方法对单点交叉口信号配时进行优化的方法,具体实现步骤如下所示:(1)SUMO道路生成及流量、配时计划设置。通过SUMO仿真软件生成本事例中所需的一个单点交叉口,并输入实际道路中的流量及信号初始配时方案。(2)强化学习agent的定义。本事例中状态集S包含排队长度、车速等信息,动作集A包含4种选择,学习时4种动作会进行随机选择,同时定义回报R和Q函数。(3)数据预处理和设置深度强化学习神经网络及参数。对输入神经网络的数据先进行预处理,然后设置神经网络的层数及初始权重后进行训练,在训练时利用随机梯度下降的方法来更新神经网络的权重,由此来逼近动作值函数。(4)通过神经网络与强化学习的不断迭代,得到最大的累积Q函数,并得出最优策略。在用此方法计算最优策略的过程中,需要考虑强化学习的特殊性,因为由强化学习采集的数据是独立同分布的,它们之间有很强的关联性。而在深度强化学习方法中利用经验回放的办法可以降低数据间的关联性,从而使训练的神经网络更加稳定且更容易收敛。此外由于本事例利用了实际的历史数据作为输入,那么训练学习完成后的算法可对实际道路进行信号配时的优化,从而减少实际道路中的交通拥堵。3.本专利技术所产生的技术效果本专利技术基于实际道路数据,借助SUMO交通仿真软件并利用深度强化学习的方法进行交通信号的配时优化,其优势之处在于:1、可以很大程度上减少交通拥堵。这种方法通过利用深度卷积神经网络优秀的感知和表达能力对输入特征进行提取,降低了输入的复杂性,并利用强化学习贪婪策略学习最优或次最优的单点交叉口信号配时优化策略。2、可以在实际道路中使用。通过输入真实的实际道路交通流量信息,并在仿真中对算法进行有效的训练,从而能将训练学习好的算法应用到实际道路中。3、具有相对良好的稳定性。因为本方法利用经验重放的办法对目标网络进行学习,能够收敛于良好的交通信号控制策略,从而提高了算法的稳定性。4.附图说明图1为本专利技术的实施流程图图2为进行信号配时优化的单点交叉口图3为SUMO仿真时的视频截图图4为仿真场景转换后的矩阵图图5为卷积神经网络结构图和输入输出过程5.具体实施方式下面结合附图进一步详细叙述本专利技术的技术方案,但本专利技术的实施和保护不局限于以下所述内容。本专利技术基于深度强化学习,利用交通仿真软件SUMO进行仿真迭代,最终实现对单点交叉口的自适应配时优化。具体实施步骤如下所示:步骤一:通过SUMO仿真软件建立单点交叉口,这里按照实际道路建立单向三车道路口。如图2所示,其中最内侧车道为左转车道,而中间车道是直行车道,右侧车道为直行与右转车道。建立交叉口之后,为进入交叉口的四条道路输入每个车道的车流量,这里输入的车流量为采集的实际道路交叉口的历史流量数据信息(连续一个月的交通数据信息),在本事例中把每天的数据以24小时单位,每隔一个小时划为一个数据区间,并计算出由此划分的每个时段的平均流量,此外考虑数据是否取自周末,因为在实际道路中,工作日的某一时段的交通流量不同于在周末相同时段的交通流量,区分是否为周末之后,最终将不同时刻的平均流量输入到SUMO仿真软件中,并初始化信号配时策略。步骤二:强化学习agent的定义。强化学习有三个主要参数,分别是:状态集S、动作集A和回报R,其中本事例中的状态集S包含排队长度和车辆速度等信息,而动作集A包含4个动作,分别是东西直行、东西左转、南北直行和南北左转。同时当有车在停车线前停车时,其等待通过交叉口的时间即定义为延误时长,这里将某一状态时的所有车辆的延误时长累加定义为累积延误时长,此时设定r1是在上一状态时观测到的累积延误时长,而r2是当前状态下观测到的累积延误时长,则定义的回报函数r为r=r1-r2(1)而本事例的最终目的是使每个时间段内车辆的总累积延误时长达到最小,由此定义最大累积Q函数为:上式是执行完策略π之后的最大累积Q函数期望,γ∈[0,1]是一个折扣系数,可确保函数可以收敛于一个最优策略。步骤三:对数据进行预处理并对神经网络参数进行设置。在本步骤中,当输入流量和初始信号本文档来自技高网
...

【技术保护点】
1.一种基于SUMO交通仿真软件,通过深度强化学习的方法对单点交叉口信号配时进行优化的方法,其特征在于包括如下步骤:(1)SUMO道路生成及流量、配时计划设置。通过SUMO仿真软件生成本事例中所需的一个单点交叉口,并输入实际道路中的流量及信号初始配时方案。(2)强化学习agent的定义。本事例中状态集S包含排队长度、车速等信息,动作集A包含4种选择,学习时4种动作会进行随机选择,同时定义回报R和Q函数。(3)数据预处理和设置深度强化学习神经网络及参数。对输入神经网络的数据先进行预处理,然后设置神经网络的层数及初始权重后进行训练,在训练时利用随机梯度下降的方法来更新神经网络的权重,由此来逼近动作值函数。(4)通过神经网络与强化学习的不断迭代,得到最大的累积Q函数,并得出最优策略。

【技术特征摘要】
1.一种基于SUMO交通仿真软件,通过深度强化学习的方法对单点交叉口信号配时进行优化的方法,其特征在于包括如下步骤:(1)SUMO道路生成及流量、配时计划设置。通过SUMO仿真软件生成本事例中所需的一个单点交叉口,并输入实际道路中的流量及信号初始配时方案。(2)强化学习agent的定义。本事例中状态集S包含排队长度、车速等信息,动作集A包含4种选择,学习时4种动作会进行随机选择,同时定义回报R和Q函数。(3)数据预处理和设置深度强化学习神经网络及参数。对输入神经网络的数据先进行预处理,然后设置神经网络的层数及初始权重后进行训练,在训练时利用随机梯度下降的方法来更新神经网络的权重,由此来逼近动作值函数。(4)通过神经网络与强化学习的不断迭代,得到最大的累积Q函数,并得出最优策略。2.根据权利1要求的一种基于深度强化学习对单点交叉口进行信号配时优化的方法,其特征在于:将实际道路数据输入网络,训练学习出一套适合于该交叉口的信号配时优化方案。3.根据权利1要求的一种基于深度强化学习对单点交叉口进行信号配时优化的方法,其特征在于:输入深度神经网络的矩阵的新颖性...

【专利技术属性】
技术研发人员:陈鹏朱泽茂鲁光泉王云鹏余贵珍
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1