一种基于深度强化学习的单点交叉口信号配时优化方法技术

技术编号：20121566 阅读：40 留言：0更新日期：2019-01-16 12:44

本发明专利技术公开了一种基于深度强化学习算法对单点交叉口进行自适应信号配时优化的方法，旨在通过实际道路数据，利用深度强化学习对单点交叉口进行仿真配时优化，并最终将仿真方案应用于实际道路，该方法克服了现有自适应信号配时方法的弊端，提供了一种可以进行高维输入，快速收敛的一种新颖算法。在实施本方法的过程中，首先对原始原始数据进行矩阵化处理，通过经验回放策略随机抽取输入数据，并利用ε‑贪婪策略对强化学习的动作进行选择，通过不断地迭代训练，最终得到一个信号配时的最优方案。

A Signal Timing Optimization Method for Single-Point Intersection Based on Deep Reinforcement Learning

The invention discloses a method of adaptive signal timing optimization for single-point intersections based on deep reinforcement learning algorithm. The purpose is to optimize the simulation timing for single-point intersections by using deep reinforcement learning based on actual road data, and finally apply the simulation scheme to actual roads. The method overcomes the drawbacks of the existing adaptive signal timing method, and provides an available method. A novel algorithm for fast convergence of high-dimensional input. In the process of implementing this method, firstly, the original data is matrix processed, the input data is randomly extracted by experience playback strategy, and the action of reinforcement learning is selected by using the strategy of

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的单点交叉口信号配时优化方法
本专利技术公开了一种对单点信号交叉口进行控制优化的深度强化学习方法，属于智能交通

技术介绍
随着世界经济的发展和城市化的快速推进，城市的规模以及人口也在不断地扩大、增加。虽然城市的扩张一定程度上促进了经济的发展，但是越来越多的私家车的出现造成了城市交通的拥堵。而为了加强对城市道路的管理，减少交通事故及拥堵的发生，需要在交叉口设置交通信号灯，从而提高道路使用率，改善交通状况。目前的交通信号控制大致分为三类：(1)固定信号配时。这种配时策略根据以往的交通数据信息，设置好固定的绿信比及信号周期，它的优点是成本低，可以对流量较小的道路进行管控，但是不适用于流量较大的道路。(2)感应信号配时。这种配时策略没有固定的绿信比和相位时长，其工作原理是在车道进口设置车辆到达检测器，检测道路的车流量。在这种策略下，信号灯的周期、绿信比及相位变化会根据交通路口的交通流量的需要变化而变化，控制方式比较灵活。但是其缺点也比较明显，因为需要安装检测器，它的安装及维护成本较高。(3)自适应信号配时。这种配时策略和感应信号配时类似，也是通过检测器检测到交通流信息，然后将这些数据实时的通过网络传到上位机，上位机实时的产生最佳的绿灯配时方案，并付诸实施，这种策略可以将一段时间内汽车的放行量达到最大，或者使其它交通控制评价指标如延误、停车次数等最小。这种策略可以对交叉口的信号机进行最优或次最优的信号配时优化，使其运行方案可以根据交通流的变化而自适应的调整，从而提高车辆在交叉口的通行效率。而目前的自适应信号控制算法主要有以下几种：(1)...

【技术保护点】
1.一种基于SUMO交通仿真软件，通过深度强化学习的方法对单点交叉口信号配时进行优化的方法，其特征在于包括如下步骤：(1)SUMO道路生成及流量、配时计划设置。通过SUMO仿真软件生成本事例中所需的一个单点交叉口，并输入实际道路中的流量及信号初始配时方案。(2)强化学习agent的定义。本事例中状态集S包含排队长度、车速等信息，动作集A包含4种选择，学习时4种动作会进行随机选择，同时定义回报R和Q函数。(3)数据预处理和设置深度强化学习神经网络及参数。对输入神经网络的数据先进行预处理，然后设置神经网络的层数及初始权重后进行训练，在训练时利用随机梯度下降的方法来更新神经网络的权重，由此来逼近动作值函数。(4)通过神经网络与强化学习的不断迭代，得到最大的累积Q函数，并得出最优策略。

【技术特征摘要】
1.一种基于SUMO交通仿真软件，通过深度强化学习的方法对单点交叉口信号配时进行优化的方法，其特征在于包括如下步骤：(1)SUMO道路生成及流量、配时计划设置。通过SUMO仿真软件生成本事例中所需的一个单点交叉口，并输入实际道路中的流量及信号初始配时方案。(2)强化学习agent的定义。本事例中状态集S包含排队长度、车速等信息，动作集A包含4种选择，学习时4种动作会进行随机选择，同时定义回报R和Q函数。(3)数据预处理和设置深度强化学习神经网络及参数。对输入神经网络的数据先进行预处理，然后设置神经网络的层数及初始权重后进行训练，在训练时利用随机梯度下降的方法来更新神经网络的权重，由此来逼近动作值函数。(4)通过神经网络与强化学习的不断迭代，得到最大的累积Q函数，并得出最优策略。2.根据权利1要求的一种基于深度强化学习对单点交叉口进行信号配时优化的方法，其特征在于：将实际道路数据输入网络，训练学习出一套适合于该交叉口的信号配时优化方案。3.根据权利1要求的一种基于深度强化学习对单点交叉口进行信号配时优化的方法，其特征在于：输入深度神经网络的矩阵的新颖性...

【专利技术属性】
技术研发人员：陈鹏，朱泽茂，鲁光泉，王云鹏，余贵珍，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人