System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于交通控制领域,涉及一种基于重要性采样的策略梯度双交叉口交通信号控制方法。
技术介绍
1、由于我国居民汽车保有总量增加十分迅速,目前大城市的交通拥堵问题日益严重,小城市的个别路口也十分拥堵。与此同时,路网基础建设相对滞后,交通配时方案也比较陈旧。然而,相较于改善路网交通设施,优化交叉口的交通配时方案见效更快且具有更好的经济效益。
2、传统的信号灯控制方法都采用了固定配饰方案,该方法无法应对城市路网实时性强,交通流变化快的特性。目前实时交通配时方案是比较热门的研究方向。
技术实现思路
1、为了克服已有技术的不足,本专利技术提供了一种基于重要性采样的策略梯度双交叉口交通信号控制方法,通过对交叉口的信息进行采集,搭建微观仿真模型用于训练深度神经网络,通过基于重要性采样的策略梯度双交叉口交通信号控制方法训练得到的神经网络控制器可以有效缓解交通拥堵情况。
2、本专利技术解决其技术问题所采用的技术方案是:
3、一种基于重要性采样的策略梯度双交叉口交通信号控制方法,包括以下步骤:
4、s1、收集给定的双交叉口物理特征信息,车流量信息,信号灯相位信息,使用微观仿真软件搭建交通模拟平台的仿真模型;
5、s2、基于搭建的仿真模型,搭建深度神经网络模型,基于重要性采样的策略梯度原理,训练信号灯相位控制策略的分布πθ,并更新神经网络的参数θ;
6、s3、根据训练得到的深度神经网络,可以根据当前交叉口的状态信息和信号灯相位信
7、ak+1=argmax(πθ(ak|sk))。
8、进一步,所述步骤s2中,更新深度神经网络的参数θ的步骤如下:
9、s21,设定最大迭代次数t=1000,初始化深度神经网络参数θ=θ1,神经网络结构依照双交叉口的规模大小进行自适应调整,设定超参数k=1,m=2,c=2,折扣因子γ=0.9;
10、s22,设置t=1,根据初始神经网络θ1从仿真软件中采样并得到第一条交叉口车流量状态和信号灯动作集合τ1,并计算u1=g(τ1|θ1),其中
11、
12、其中指的是状态动作对对应的奖励函数,b是一个基准线常数,b=0.1,h表示轨迹包含的状态动作对的个数;
13、s23,设置t=t+1,通过微观仿真模型采样并得到车辆状态动作集合轨迹τt,并计算ut=βtg(τt|θt)+(1-βt)[ut-1+g(τt|θt)-w(τt|θt-1,θt)g(τt|θt-1)],其中重要性采样权重w(τt|θt-1,θt)通过下式计算:
14、
15、s24,计算更新θt+1=θt+ηtut;
16、s25,重复执行步骤s23、s24直到最大迭代次数t=t为止;
17、s26,输出最新的神经网络参数θt+1。
18、再进一步,所述步骤s1中,路网车辆交通信息数据获取步骤如下:
19、s11,根据数据收集的时间k,获取当前的车流量信息和信号灯信息sk,ak;
20、s12,对于给定的双交叉口路网,根据获取的信息统计得到入口的车流量分布数据;
21、s13,基于入口的车流量数据和双交叉口物理特征,包括信号灯位置、车道分布和车道长度,在微观仿真软件中搭建微观仿真模型,模拟该交叉口的日常行驶状态。
22、本专利技术的有益效果主要表现在:可以使得信号控制更快的训练得到较优良的性能,应用于路网控制中可以更加快捷的缓解交通拥堵情况。
本文档来自技高网...【技术保护点】
1.一种基于重要性采样的策略梯度双交叉口交通信号控制方法,其特征在于,所述方法包括以下步骤:
2.如权利要求1所述的基于重要性采样的策略梯度双交叉口交通信号控制方法,其特征在于,所述步骤S2中,更新深度神经网络的参数θ的步骤如下:
3.如权利要求1或2所述的基于重要性采样的策略梯度双交叉口交通信号控制方法,其特征在于,所述步骤S1中,路网车辆交通信息数据获取步骤如下:
【技术特征摘要】
1.一种基于重要性采样的策略梯度双交叉口交通信号控制方法,其特征在于,所述方法包括以下步骤:
2.如权利要求1所述的基于重要性采样的策略梯度双交叉口交通信号控制方法,其特征在于,所述步骤...
【专利技术属性】
技术研发人员:仲辉建,范晓红,林静,李志强,曹虹霞,彭吉友,冯远静,李永强,
申请(专利权)人:航天科工广信智能技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。