一种基于深度Q学习神经网络的大型路网交通信号控制方法技术

技术编号:27033774 阅读:24 留言:0更新日期:2021-01-12 11:17
一种基于深度Q学习神经网络的大型路网交通信号控制方法,包括如下步骤:1)在一段连续的时间里获取路网中每个路口的所有车道近路口50米的车辆数目和相位信息;2)预处理步骤一获得的数据,获得车辆数‑相位数据集;3)利用排队车辆‑灯态数据集,更新深度Q神经网络;4)深度Q神经网络反映的信息就是路网每个路口对应状态下的可执行相位信息,据此可以给出该路网下的交通信号控制方案。与现有技术相比,本发明专利技术通过深度Q神经网络刻画大型路网状态,据此得到的交通信号控制器比现有的定时控制能更好的缓解交通拥堵的情况。

【技术实现步骤摘要】
一种基于深度Q学习神经网络的大型路网交通信号控制方法
本专利技术涉及交通控制工程、人工智能应用领域,具体涉及深度Q学习神经网络方法和交通信号控制方法。
技术介绍
2020年,汽车保有量的数值仍将以可以预见的趋势迅速增长。这个趋势带来的交通拥堵问题却日益严峻。然而,交通路网的建设速度完全跟不上车辆增长的速度。交通信号灯配时方案的好坏极大程度影响了交通通行的质量。然而目前几乎所有的路网采用的都是定时配时方案,这种方案虽然稳定可靠,但是不能适应交通流的随机变化。而随着5G通信技术的迅速普及,接下来几年5G信号将在我国大部分城市覆盖,尤其是大城市的覆盖率会更高。而大城市往往是交通拥堵问题最严重的城市。
技术实现思路
为了优化当前的大型路网交通定时配时方案,本专利技术提出一种利用当前路网各个车道的车辆数和相位数据来训练神经网络实时控制交通信号的方法,基于5G通信技术的发展,可以通过对路网的信息的采集,实时控制路网的交通信号。从而通过优化信号灯配时方案来缓解交通拥堵问题。本专利技术解决其技术问题所采用的技术方案是:一种基于深度Q学习神经网络的大型路网交通信号控制方法,包括以下步骤:1)对于大型路网中的每个交叉口,在一段连续的时间里获取每个路口的所有车道近路口50米的车辆数目,同时,记录当前时刻状态对应下的每个路口所执行的相位编号;2)预处理原始车辆数和相位数据,获得车辆数-相位数据集{Nk,Pk},其中,Nk为第k时刻路网中每个路口各个车道排队车辆的个数的总和,k=1,2,…,K,K为该数据集合中的数据个数;3)利用车辆数-相位数据集{Nk,Pk},更新深度Q学习神经网络中的神经网络;4)根据得到的深度Q神经网络,该段路网所需要的相位信息由实际获得的各个路口50m内车流量数据和相位信息代入下式决定:PnextPnext=argmax(Q(Nnow,Pnow;θ))其中,Pnext指代该段路网所需要的相位信息,Nnow指代当前车辆数,Pnow指代当前可采用的相位信息,θ指代深度Q学习神经网络的参数,Q(Nnow,Pnow;θ)指代在给定的车辆数、相位信息、参数下的Q值函数,argmax(Q(Nnow,Pnow;θ))指代使得Q值函数取得最大值的可控参数的值,即Pnext。进一步,所述步骤2)的过程如下:2.1)检测并删除异常数据,如路口50m内车辆数目瞬变的数据;2.2)将路网中的路口数据和相位信息按照时间顺序梳理,获取数据集合{Nk,Pk}。更进一步,所述步骤3)的过程如下:3.1)初始化Q神经网络Q(Nk,Pk;θ),其中θ为神经网络权重;3.2)对于每一个数据{Nk,Pk},定义深度Q学习神经网络中的奖励值:r=-Nk;3.3)利用车辆数-相位数据集{Nk,Pk}中每一个数据对Q神经网络按照损失函数L(θ),梯度下降法更新Q神经网络,其中折扣因子γ=0.99,i代表迭代次数,损失函数和更新公式如下:3.4)重复更新神经网络直到更新次数到达最大迭代次数I=1000000或者损失函数小于0.001。本专利技术的技术构思为:首先收集路网中每个交叉口中的每个车道50m内的车辆和该时刻的相位信息生成训练数据,然后又基于该数据集,使用深度Q学习神经网络方法训练神经网络。最后该路网的的最优相位可以通过实际获得的各个路口50m车辆数数据和训练好的神经网络得到,该专利技术最终得到的交通信号的控制器可以处理交通路网的车流随机变化的特性。本专利技术的有益效果为:通过交通数据流实时创建数据集,用数据集训练深度Q学习神经网络,然后用训练好的神经网络用于交通信号的实时控制,从而可以挖掘海量的交通数据来缓解交通拥堵情况。附图说明图1显示了深度Q学习神经网络算法的流程图;图2显示了微观交通仿真软件SUMO搭建的大型路网示意图,用于下文的实例分析。具体实施方式下面结合附图对本专利技术作进一步描述。参照图1和图2,一种基于深度Q学习神经网络的大型路网交通信号控制方法,包括以下步骤:1)参照图2,对于大型路网中的每个交叉口,在一段连续的时间里获取每个路口的所有车道近路口50米的车辆数目,同时,记录当前时刻状态对应下的每个路口所执行的相位编号;2)预处理原始车辆数和相位数据,获得车辆数-相位数据集{Nk,Pk},其中,Nk为第k时刻路网中每个路口各个车道排队车辆的个数的总和,k=1,2,…,K,K为该数据集合中的数据个数,过程如下:2.1)检测并删除异常数据,如路口50m内车辆数目瞬变的数据;2.2)将路网中的路口数据和相位信息按照时间顺序梳理,获取数据集合{Nk,Pk};3)参照图1,利用车辆数-相位数据集{Nk,Pk},更新深度Q学习神经网络中的神经网络,过程如下:3.1)初始化Q神经网络Q(Nk,Pk;θ),其中θ为神经网络权重;3.2)对于每一个数据{Nk,Pk},定义深度Q学习神经网络中的奖励值:r=-Nk;3.3)利用车辆数-相位数据集{Nk,Pk}中每一个数据对Q神经网络按照损失函数L(θ),梯度下降法更新Q神经网络,其中折扣因子γ=0.99,i代表迭代次数,损失函数和更新公式如下:3.4)重复更新神经网络直到更新次数到达最大迭代次数I=1000000或者损失函数小于0.001;4)根据得到的深度Q神经网络,该段路网所需要的相位信息由实际获得的各个路口50m内车流量数据和相位信息代入下式决定:Pnext=argmax(Q(Nnow,Pnow;θ))其中,Pnext指代该段路网所需要的相位信息,Nnow指代当前车辆数,Pnow指代当前可采用的相位信息,θ指代深度Q学习神经网络的参数,Q(Nnow,Pnow;θ)指代在给定的车辆数、相位信息、参数下的Q值函数,argmax(Q(Nnow,Pnow;θ))指代使得Q值函数取得最大值的可控参数的值,即Pnext。本实施例以使用交通微观仿真软件SUMO搭建的杭州文一路到文三路路网共计39个路口的实测过车数据为实施例,一种基于深度Q学习神经网络的大型路网交通信号控制方法,包括以下步骤:1)对于SUMO绘制的文一路文三路路网中的39个交叉口,在一段连续的时间里获取每个路口的所有车道近路口50米的车辆数目,同时,记录当前时刻状态对应下的每个路口所执行的相位编号;2)预处理原始车辆数和相位数据,获得车辆数-相位数据集{Nk,Pk},其中,Nk为第k时刻路网中每个路口各个车道排队车辆的个数的总和,k=1,2,…,K,K为该数据集合中的数据个数,过程如下:2.1)检测并删除异常数据,如路口50m内车辆数目瞬变的数据;2.2)将路网中的39个路口数据和相位信息按照时间顺序梳理,获取数据集合{Nk,Pk};3)利用车辆数-相位数据集{Nk,Pk},更新深度Q学习神经本文档来自技高网...

【技术保护点】
1.一种基于深度Q学习神经网络的大型路网交通信号控制方法,其特征在于,所述方法包括以下步骤:/n1)对于大型路网中的每个交叉口,在一段连续的时间里获取每个路口的所有车道近路口50米的车辆数目,同时,记录当前时刻状态对应下的每个路口所执行的相位编号;/n2)预处理原始车辆数和相位数据,获得车辆数-相位数据集{N

【技术特征摘要】
1.一种基于深度Q学习神经网络的大型路网交通信号控制方法,其特征在于,所述方法包括以下步骤:
1)对于大型路网中的每个交叉口,在一段连续的时间里获取每个路口的所有车道近路口50米的车辆数目,同时,记录当前时刻状态对应下的每个路口所执行的相位编号;
2)预处理原始车辆数和相位数据,获得车辆数-相位数据集{Nk,Pk},其中,Nk为第k时刻路网中每个路口各个车道排队车辆的个数的总和,k=1,2,…,K,K为该数据集合中的数据个数;
3)利用车辆数-相位数据集{Nk,Pk},更新深度Q学习神经网络中的神经网络;
4)根据得到的深度Q神经网络,该段路网所需要的相位信息由实际获得的各个路口50m内车流量数据和相位信息代入下式决定:
Pnext=argmax(Q(Nnow,Pnow;θ))
其中,Pnext指代该段路网所需要的相位信息,Nnow指代当前车辆数,Pnow指代当前可采用的相位信息,θ指代深度Q学习神经网络的参数,Q(Nnow,Pnow;θ)指代在给定的车辆数、相位信息、参数下的Q值函数,argmax(Q(Nnow,Pnow;θ))指代使得Q值函数...

【专利技术属性】
技术研发人员:方忠良张湛王喆冰杨军喜徐琛冯远静李永强
申请(专利权)人:航天科工广信智能技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1