一种基于近端策略优化的小型路网交通信号优化方法技术

技术编号:27033772 阅读:64 留言:0更新日期:2021-01-12 11:17
一种基于近端策略优化的小型路网交通信号控制方法,包括如下步骤:1)通过与SUMO的交互,实时获取路网中车辆的位置信息和信号灯的相位信息;2)数据预处理,获取整个路网在当前时刻的排队长度‑相位编号数据集;3)根据上一步整理的数据集,训练PPO网络直到达到最大迭代次数;4)损失函数达到精度要求后,即可得到该路网下基于近端策略优化的交通信号优化配时方案。与现有技术相比,本发明专利技术通过近端策略优化的方法,提高了小型路网的交通运行效率,更好地缓解了城市中小型连通区域的交通拥堵问题。

【技术实现步骤摘要】
一种基于近端策略优化的小型路网交通信号优化方法
本专利技术涉及智能交通、人工智能应用领域,具体涉及近端策略优化(ProximalPolicyOptimization)算法和小型路网交通信号优化方法。
技术介绍
随着大众生活水平的普遍提高,汽车已成为人们出行最常用的交通工具,但由于道路资源的有限,交通管理协调机制的不科学以及交通决策存在的失误性等因素,城市路网,特别是交叉口处会造成严重的交通拥堵问题。对于某一个具体的交叉口,宽敞的道路和智能交通设备的存在使得该路口不会产生严重的拥堵;而对于多个交叉口连接而成的小型路网,拥堵问题仍然存在,并且是影响区域通行效率的最大因素。
技术实现思路
为了优化小型路网的交通信号配时方案,改善区域路网的交通拥堵现象,基于实时获取的交通数据,本专利技术提出一种基于近端策略优化的小型路网交通信号控制方法,对于小型路网提出的基于近端策略优化的交通信号优化配时方案可以有效提高交通通行效率,而且可以增加区域内不同交叉口之间的协作,应对交通的动态性变化。本专利技术解决其技术问题所采用的技术方案是:一种基于近端策略优化的小型路网交通信号控制方法,包括以下步骤:1)利用路网交叉口处的交通数据信号传感器,实时获取小型路网中(井字型四交叉口)的交通数据,为车辆的相对坐标信息和信号灯在对应时刻所处的相位信息,确定处于排队状态的车辆,保存在原始数据集中;2)原始数据预处理,删去离谱的数据并用前一时刻的数据填补缺失的数据,获取具体交叉口处的排队长度-相位编号集合{Qi,j,Pi},其中,Qi,j表示当前时刻第i交叉口第j车道处的车辆排队长度,Pi代表当前时刻第i交叉口处的信号灯灯态,在该专利技术中,i=1,2,3,4,j=1,2,...,7,8;按照路网中交叉口的排列顺序,将集合{Qi,j,Pi}整合得到整个路网在当前时刻的排队长度-相位编号数据集St,t为当前的时刻;3)利用路网的排队长度-相位编号集St,初始化神经网络权重,利用近端策略优化方法PPO更新网络参数,寻找当前交通环境下的最优信号灯配时方案;4)保存最终收敛的神经网络训练参数,得到该路网下基于近端策略优化的交通信号优化配时方案,在不同交通状态st下,该路网需切换至的交通相位由以下状态-动作对所决定:Pnext=argmax(Q(snow,anow,θ))其中Pnext表示路网需切换至的相位,snow为当前路网交通状态,anow为当前路网可执行的相位,θ表示神经网络的参数,Q(snow,anow,θ)表示由当前路网状态,当前路网可执行相位,神经网络参数决定的Q值函数,argmax(Q(snow,anow,θ))表示使得Q(snow,anow,θ)最大的受控参数anow。进一步,所述步骤3)的过程如下:3.1)首先,定义训练超参数,折扣因子γ=0.9,Actor网络学习率A_LR=0.0001,Critic网络学习率C_LR=0.0002,batch=256,AC网络的更新步长Step=10,裁剪因子ε=0.2,当前时刻PPO方法的奖励定义如下:3.2)根据排队长度-相位编号数据集St,缓冲区buffer中存储的小批量训练数据以及Critic网络的返回值adv更新Actor神经网络Q(st,at,θt),其中θt为策略参数,更新当前时刻选取各个动作的概率,并按照预设的Step将更新参数传入old_policy网络,PPO中Policy的更新公式如下所示:LCLIP(θ)=Et[min(rt(θ)At,clip(rt(θ),1-ε,1+ε)At)];其中,rt(θ)是t时刻NewPolicy和OldPolicy的比例,以此限制NewPolicy的更新幅度;3.3)根据排队长度-相位编号数据集St和平均奖励的偏导数dRt更新Critic神经网络权重w,输出评价θt好坏的指标adv:adv=dRt-V(St)3.4)重复更新PPO网络参数直到达到最大迭代次数I=200000或者损失函数达到收敛精度的要求。本专利技术的技术构思为:首先实时获取路网内的车辆信息和信号灯相位信息,然后预处理,得到排队长度-相位编号数据集,再基于该数据集和近端策略优化训练策略参数和神经网络。达到最大迭代次数后,可以得到基于近端策略优化和当前路网车辆排队长度的最优信号灯相位切换方案,该专利技术最终得到的交通信号控制方案可以有效处理小区域路网的交通拥堵问题。本专利技术的有益效果为:通过对实时交通数据的获取和处理,挖掘交通数据中隐藏的重要信息,通过训练PPO神经网络,最后将训练结果用于小型路网的交通信号控制,从而可以缓解区域交通的拥堵问题。附图说明图1显示了基于近端策略优化的小型路网交通信号控制方法流程图;图2显示了基于SUMO仿真软件搭建的小型路网示意图,用于下文的实例分析;图3显示了路网内交叉口的相位示意图,每个交叉口处的相位具有一致性。具体实施方式下面结合附图对本专利技术作进一步描述。参照图1~图3,一种基于近端策略优化的小型路网交通信号控制方法,包括以下步骤:1)参照图2,图3的路网信息,利用路网交叉口处的交通数据信号传感器,实时获取小型路网中(井字型四交叉口)的交通数据,主要为车辆的相对坐标信息和信号灯在对应时刻所处的相位信息,确定处于排队状态的车辆,保存在原始数据集中;2)原始数据预处理,删去离谱的数据并用前一时刻的数据填补缺失的数据,获取具体交叉口处的排队长度-相位编号集合{Qi,j,Pi},其中,Qi,j表示当前时刻第i交叉口第j车道处的车辆排队长度,Pi代表当前时刻第i交叉口处的信号灯灯态,在该专利技术中,i=1,2,3,4,j=1,2,...,7,8;按照路网中交叉口的排列顺序,将集合{Qi,j,Pi}整合得到整个路网在当前时刻的排队长度-相位编号数据集St,t为当前的时刻;3)根据图1,利用路网的排队长度-相位编号集St,初始化神经网络权重,利用近端策略优化方法(PPO)更新网络参数,寻找当前交通环境下的最优信号灯配时方案,过程如下:3.1)首先,定义训练超参数,折扣因子γ=0.9,Actor网络学习率A_LR=0.0001,Critic网络学习率C_LR=0.0002,batch=256,AC网络的更新步长Step=10,裁剪因子ε=0.2,当前时刻PPO方法的奖励定义如下:3.2)根据排队长度-相位编号数据集St,缓冲区buffer中存储的小批量训练数据以及Critic网络的返回值adv更新Actor神经网络Q(st,at,θt),其中θt为策略参数,更新当前时刻选取各个动作的概率,并按照预设的Step将更新参数传入old_policy网络,PPO中Policy的更新公式如下所示:LCLIP(θ)=Et[min(rt(θ)At,clip(rt(θ),1-ε,1+ε)At)];其中,rt(θ)是t时刻NewPolicy和O本文档来自技高网...

【技术保护点】
1.一种基于近端策略优化的小型路网交通信号控制方法,其特征在于,所述方法包括以下步骤:/n1)利用路网交叉口处的交通数据信号传感器,实时获取小型路网中的交通数据,为车辆的相对坐标信息和信号灯在对应时刻所处的相位信息,确定处于排队状态的车辆,保存在原始数据集中;/n2)原始数据预处理,删去离谱的数据并用前一时刻的数据填补缺失的数据,获取具体交叉口处的排队长度-相位编号集合{Q

【技术特征摘要】
1.一种基于近端策略优化的小型路网交通信号控制方法,其特征在于,所述方法包括以下步骤:
1)利用路网交叉口处的交通数据信号传感器,实时获取小型路网中的交通数据,为车辆的相对坐标信息和信号灯在对应时刻所处的相位信息,确定处于排队状态的车辆,保存在原始数据集中;
2)原始数据预处理,删去离谱的数据并用前一时刻的数据填补缺失的数据,获取具体交叉口处的排队长度-相位编号集合{Qi,j,Pi},其中,Qi,j表示当前时刻第i交叉口第j车道处的车辆排队长度,Pi代表当前时刻第i交叉口处的信号灯灯态,在该发明中,i=1,2,3,4,j=1,2,...,7,8;按照路网中交叉口的排列顺序,将集合{Qi,j,Pi}整合得到整个路网在当前时刻的排队长度-相位编号数据集St,t为当前的时刻;
3)利用路网的排队长度-相位编号集St,初始化神经网络权重,利用近端策略优化方法PPO更新网络参数,寻找当前交通环境下的最优信号灯配时方案;
4)保存最终收敛的神经网络训练参数,得到该路网下基于近端策略优化的交通信号优化配时方案,在不同交通状态st下,该路网需切换至的交通相位由以下状态-动作对所决定:
Pnext=argmax(Q(snow,anow,θ))
其中Pnext表示路网需切换至的相位,snow为当前路网交通状态,anow为当前路网可执行的相位,θ表示神经网络的参数,Q(snow,anow,θ)表示由当前路网状态,当前路网可执行相位,神经网络参数决定的Q值函数,argmax(Q(snow,a...

【专利技术属性】
技术研发人员:徐云应丹红王喆冰袁传军柴子辉冯远静李永强
申请(专利权)人:航天科工广信智能技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1