基于深度强化学习的路口交通信号自适应控制方法技术

技术编号:34560601 阅读:16 留言:0更新日期:2022-08-17 12:48
本发明专利技术公开了一种基于深度强化学习的路口交通信号自适应控制方法,包括三个步骤:定义基于深度强化学习与卷积神经网络的算法控制器,定义状态空间、动作空间和回报函数;使用深度强化学习方法对卷积神经网络进行训练;依据训练好的算法控制器进行路口交通信号控制。本发明专利技术将车道划分成多个元胞,每元胞可容纳多辆车辆,通过车辆饱和率来表达状态信息,与现有的一元胞一车辆相比,降低了数据量和后续的计算量,降低了系统成本,从而提高了可行性;将元胞内车辆的速度比作为饱和率的信息补充,使得当前交通状态的描述更全面与准确;将车道内车辆的速度、延迟时间及最靠近停车线的若干道段内车辆的数量变化综合作为回报值,判断更准确也更及时。确也更及时。

【技术实现步骤摘要】
基于深度强化学习的路口交通信号自适应控制方法


[0001]本专利技术涉及交通信号控制
,具体涉及一种基于深度强化学习的路口交通信号自适应控制方法。

技术介绍

[0002]随着汽车保有量的增加,交通拥堵已经成为困扰我国经济发展的一个难题。解决交通拥堵有主动和被动两种方法,主动方法以改善交通基础设施和发展先进的交通控制系统为主,而被动方法则是采用单双限号、鼓励绿色出行等。目前看来,发展先进的交通控制系统是操作性最佳,对人们生活影响最小的方式。
[0003]深度学习是通过多层的网络结构和非线性变换,组合低层特征,形成抽象的、易于区分的高层表示,以发现数据的分布式特征表示,近年来,已经在图像分类、语音识别、自然语言处理、视频分类等领域取得了令人瞩目的成功。所以,深度学习在交通控制系统中也理应大有可为。
[0004]专利文献CN106910351B公开了一种基于深度强化学习的交通信号自适应控制方法,通过对交通数据进行预处理,获取包含车辆位置信息的交通状态的低层表示;在此基础上利用强化学习的决策能力选择合适的配时方案,实现交通信号自适应控制,以减少车辆旅行时间,确保交通安全、畅通、有序和高效地运行。上述专利中,对停车线外的车道进行离散化处理,得到若干个元胞,元胞内有车,则值为1,元胞内无车,则值为0;再将连续4个时刻获取的当前交通信息作为当前交通状态,以包含了交通动态变化的信息。该方式虽然能准确深刻的刻画出当前交通状态,但通过矩阵的方式来描述整个路网的信息,数据多、计算量大,成本较高,因此难以推广。
>
技术实现思路

[0005]为了提高实现高速、低成本的实现路口交通信号的自适应控制,专利技术提供了一种基于深度强化学习的路口交通信号自适应控制方法。
[0006]本专利技术采用的技术方案如下:一种基于深度强化学习的路口交通信号自适应控制方法,包括如下步骤:
[0007]步骤1.定义基于深度强化学习与卷积神经网络的算法控制器,定义状态空间S、动作空间A和回报函数R;
[0008]步骤2.使用深度强化学习方法对卷积神经网络进行训练;
[0009]步骤3.依据训练好的算法控制器进行路口交通信号控制;
[0010]步骤1具体如下:
[0011]步骤1.1.使用深度强化学习方法构建卷积神经网络Q;
[0012]具有用于存储样本<s,a,r,s'>的样本池D,其中s表示当前交通状态,a表示选取的执行动作,r为回报值,s'为执行动作a后转移到的下一交通状态;卷积神经网络依次设输入层、卷积层、全连接层及输出层,输入层为当前交通状态s,输出层为当前交通状态s下所有
执行动作a的值估计Q(s,a);
[0013]步骤1.2.定义当前交通状态s;
[0014]将路口停车线以外的车道进行离散化处理,分成J个道段,每各道段为一元胞,元胞内最大容纳车辆数为Cmax

j,元胞内实际车辆数为Cr

j,元胞的第一个特征值饱和率表示为Cr

j/Cmax

j;元胞内车辆最高速度为Smax

n,元胞内车辆实际平均速度为Savg

j,最元胞的第二个特征值车速比表示为Savg

j/Smax

j;
[0015]即J
×
2维矩阵用来表示当前交通状态s;
[0016]步骤1.3.定义动作空间A;
[0017]路口交通信号采用四相位按固定相序周期循环,相位一为X向直行及右转,相位二为X向左转,相位三为Y向直行及右转,相位四为Y向左转,四元组<t1,t2,t3,t4>表示当前周期下四个相位的绿灯持续时间;执行动作a=<t
’1,t
’2,t
’3,t
’4>,其中t
’1、t
’2、t
’3、t
’4分别表示下一周期下四个相位的绿灯持续时间;动作空间A为执行动作a的集合;
[0018]步骤1.4.定义回报函数R;
[0019]将车道内车辆的速度、延迟时间及最靠近停车线的若干道段内车辆的数量变化综合作为回报值r,回报函数为
[0020][0021]其中,c1、c1及c3为权重,v为车辆当前速度,d为车辆延迟时间,k为当前车道内车辆总数,l为单一道段内车辆的数量,m为最靠近停车线的道段数量;R>0,表示回报为奖励,R<0,表示回报为惩罚。优选的,步骤1.2中,从路口停车线向远处的N个道段,各道段的长度逐渐增加。
[0022]优选的,步骤1.3中,满足
[0023]t1+t2+t3+t4=t
’1+t
’2+t
’3+t
’4,即四相位的当前周期与下一周期的时间总长相等。
[0024]优选的,步骤1.3中,执行动作a为对t1、t3与t2、t4中的一组作一增一减的调整或保持不变,调整量为Δt1,执行动作a具有5种情形
[0025][0026]即为动作空间A。
[0027]优选的,步骤1.3中,执行动作a为对t1、t2、t3、t4中任一个值增减一个固定调整量Δt2或保持不变,执行动作a具有9种情形
[0028][0029]即为动作空间A。
[0030]优选的,执行动作a中t
’1、t
’2、t
’3、t
’4具有上限与下限。
[0031]优选的,步骤2具体如下:
[0032]步骤2.1.用Q(s,a,ω)表示卷积神经网络Q的Q(s,a)的近似值,ω为神经网络权重,构造两个参数一致的当前网络Q
M
和目标网络Q
T
,当前网络Q
M
用于实时更新神经网络的权重ω,目标网络Q
T
保持权重ω不变,当前网络Q
M
按设定步数T将权重ω赋值给目标网络Q
T

[0033]步骤2.2.初始化当前网络Q
M
的权重ω,ω随机分布在[

1,1]间,并把权重ω赋值给目标网络Q
T
;初始化样本池D,使其容量达到设置值;
[0034]步骤2.3.检测各元胞即道段内车辆的饱和率和车速比,合并成系统的当前交通状态s;
[0035]步骤2.4.采用ε贪心法选取执行动作a,即以ε的概率随机选取执行动作a,以(1

ε)的概率以maxQ(s,a,ω)作为标准选取执行动作a,的概率以maxQ(s,a,ω)作为标准选取执行动作a,其中,ε为搜索利用率,maxQ(s,a,ω)表示Q(s,a,ω)的最大值,n为当前训练步数,N为初始设置的总步数;
[0036]步骤2.5.得到回报值r与更新后的下一交通状态s',将<s,a,r,s'>存储本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的路口交通信号自适应控制方法,包括如下步骤:步骤1.定义基于深度强化学习与卷积神经网络的算法控制器,定义状态空间S、动作空间A和回报函数R;步骤2.使用深度强化学习方法对卷积神经网络进行训练;步骤3.依据训练好的算法控制器进行路口交通信号控制;其特征在于,步骤1具体如下:步骤1.1.使用深度强化学习方法构建卷积神经网络Q;具有用于存储样本<s,a,r,s'>的样本池D,其中s表示当前交通状态,a表示选取的执行动作,r为回报值,s'为执行动作a后转移到的下一交通状态;卷积神经网络依次设输入层、卷积层、全连接层及输出层,输入层为当前交通状态s,输出层为当前交通状态s下所有执行动作a的值估计Q(s,a);步骤1.2.定义当前交通状态s;将路口停车线以外的车道进行离散化处理,分成J个道段,每各道段为一元胞,元胞内最大容纳车辆数为Cmax

j,元胞内实际车辆数为Cr

j,元胞的第一个特征值饱和率表示为Cr

j/Cmax

j;元胞内车辆最高速度为Smax

n,元胞内车辆实际平均速度为Savg

j,最元胞的第二个特征值车速比表示为Savg

j/Smax

j;即J
×
2维矩阵用来表示当前交通状态s;步骤1.3.定义动作空间A;路口交通信号采用四相位按固定相序周期循环,相位一为X向直行及右转,相位二为X向左转,相位三为Y向直行及右转,相位四为Y向左转,四元组<t1,t2,t3,t4>表示当前周期下四个相位的绿灯持续时间;执行动作a=<t
’1,t
’2,t
’3,t
’4>,其中t
’1、t
’2、t
’3、t
’4分别表示下一周期下四个相位的绿灯持续时间;动作空间A为执行动作a的集合;步骤1.4.定义回报函数R;将车道内车辆的速度、延迟时间及最靠近停车线的若干道段内车辆的数量变化综合作为回报值r,回报函数为其中,c1、c2及c3为权重,v为车辆当前速度,d为车辆延迟时间,k为当前车道内车辆总数,l为单一道段内车辆的数量,m为最靠近停车线的道段数量;R>0,表示回报为奖励,R<0,表示回报为惩罚。2.根据权利要求1所述的基于深度强化学习的路口交通信号自适应控制方法,其特征在于,步骤1.2中,从路口停车线向远处的N个道段,各道段的长度逐渐增加。3.根据权利要求1所述的基于深度强化学习的路口交通信号自适应控制方法,其特征在于,步骤1.3中,满足
t1+t2+t3+t4=t
’1+t
’2+t
’3+t
’4,即四相位的当前周期与下一周期的时间总长相等。4.根据权利要求3所述的基于深度强化学习的路口交通信号自适应控制方法,其特征在于,步骤1....

【专利技术属性】
技术研发人员:高万宝尹少东吕红振张超解寅萍杨丹
申请(专利权)人:南京掘码网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1