【技术实现步骤摘要】
基于精细化回报机制的交叉熵强化学习可变限速控制方法
[0001]本专利技术属于智能交通和交通控制
,具体涉及一种基于精细化回报机制的交叉熵强化学习可变限速控制方法。
技术介绍
[0002]在过去的几十年里,交通拥堵已成为高速公路上常见的交通问题。拥堵发生在高速公路瓶颈附近,有时会向上游和下游蔓延。当今可用的高速公路实时交通流数据使智能交通系统(ITS)服务的实际应用能够用作改善交通的交通控制措施。可变限速(VSL)控制已被引入作为缓解拥堵和改善高速公路瓶颈处交通运营的有效方法。高速公路中经常出现连续瓶颈的场景,但是以往的可变限速控制策略针对局部的瓶颈路段进行控制,缺乏对于不同瓶颈处限速控制器的协同控制。
技术实现思路
[0003]为了解决上述
技术介绍
提到的技术问题,本专利技术提出了一种基于精细化回报机制的交叉熵强化学习可变限速控制方法。
[0004]为了实现上述技术目的,本专利技术的技术方案为:
[0005]一种基于精细化回报机制的交叉熵强化学习可变限速控制方法,其特征在于,包括以下步骤 ...
【技术保护点】
【技术特征摘要】
1.一种基于精细化回报机制的交叉熵强化学习可变限速控制方法,其特征在于,包括以下步骤:S1、获得连续多瓶颈高速公路各路段的交通流数据,对交通流数据归一化处理并生成当前时间步交通流状态信息s;S2、在每个瓶颈路段部署一个智能体进行限速控制,建立每个瓶颈路段的综合回报值函数,综合回报值r
j
包括道路通行效率回报值r
efficiency
和道路安全回报值r
safety
;S3、建立r
efficiency
和r
safety
的附加修正函数,对步骤S2建立的每个瓶颈路段的回报值进行精细化处理,得到修正后的综合回报值r
′
j
;S4、根据交通状态信息s计算得到各瓶颈回报值并存储在数据集中,计算各个瓶颈回报值的历史交通流重要性系数w
s
(j)和道路线型设计重要性系数w
p
(j),得到组成重要性系数w(j),计算整条高速公路所有瓶颈的全局回报值R;S5、设计用于训练智能体的深度强化学习算法神经网络,为所有的智能体建立一个回放记忆库存放训练过程中产生的数据;其中,所述回放记忆库存放的数据包括:当前时间步交通流状态信息s、限速控制动作值a、全局回报值R;选取回放记忆库D中位于前20%的R对应的数据进行训练,以交叉熵作为损失函数更新神经网络直至收敛;S6、根据步骤S5收敛后的神经网络计算得到各瓶颈的最优协同限速控制动作,对整条高速公路各个控制区执行限速动作,生成新的交通流状态。2.根据权利要求1所述一种基于精细化回报机制的交叉熵强化学习可变限速控制方法,其特征在于,步骤S1具体包括以下步骤:S11、通过GPS每30秒获取一次当前车辆的经、纬度以及海拔高度,确定当前车辆的位置信息,将车辆位置信息进行封装,封装的格式包括:车辆标识、速度、车辆GPS信息和时间戳;S12、对步骤S11采集的数据进行归一化处理,生成道路的实时交通状态信息s,s信息包括:瓶颈j上游主路的需求d
jup
,瓶颈j上游匝道的需求d
jramp
,瓶颈上游主路的密度k
jup
,瓶颈处密度k
j
,瓶颈j上游匝道的密度k
jramp
,瓶颈区域每辆车d的速度v
d
(k),位置x
d
(k)。3.根据权利要求1所述一种基于精细化回报机制的交叉熵强化学习可变限速控制方法,其特征在于,步骤S2具体包括以下步骤S21、计算高速公路瓶颈路段通行效率的回报值,公式表达如下:式中,k
cr
是瓶颈路段的关键密度,当高速公路瓶颈路段的密度在关键密度附近时,高速公路的通行效率回报值最高,回报值为1;当高速公路瓶颈路段的密度大于40辆/英里,即高速公路非常拥堵时,回报值为
‑
1,表示惩罚;其它情况下,高速公路的通行效率回报值为0;S22、获得瓶颈区域内道路车辆i的实时位置和速度信息,计算出车辆d碰撞时间TTC,公式表达如下:式中,TTC
d
(t)表示两辆车相撞之前的剩余时间量,其中d为车辆编号,x
d
‑1(t)表示前车
的位置,x
d
(t)表示后车的位置,x
d
‑1(t)
‑
x
d
(t)表示两车间的距离,v
d
(t)表示后车的速度,v
d
‑1(t)表示前车的速度,v
d
(t)
‑
v
d
‑1(t)表示两车的相对速度;S23、计算累计碰撞时间TET(t),公式表达如下:式中,TET(t)指的是前后车处于危险跟随状态所花费的总时间,即实际值TTC小于设定TTC
*
阈值所持续的时间,TTC
*
安全阈值设定为5秒,N为瓶颈路段的车辆总数;S24、计算瓶颈路段安全的回报值,公式表达如下:式中,N为瓶颈路段的车辆总数,ξ为安全回报的阈值;S25、计算孤立瓶颈的安全和效率的综合回报值,公式表达如下:r
j
=ε1r
sarety
+ε2r
efficiency
式中,r
j
表示第j个瓶颈的回报值,ε1为安全回报系数;ε2为效率回报系数,且ε1和ε2都是正数。4.根据权利要求1所述一种基于精细化回报机制的交叉熵强化学习可变限速控制方法,其特征在于,步骤S3具体包括以下步骤:S31、设计效率性能函数,设计S2中回报值r
efficiency
的附加修正函数,公式表达如下:的附加修正函数,公式表达如下:式中,f1(s
→
s
′
)是回报r
efficiency
的附加修正函数,表示从s状态到s
′
的效率性能差,Θ1(s)表示在s状态下的效率性能,Θ1(s
′
)表示在s
′
状态下的效率性能,γ1,a1和β1为系数,且都是正数,k
s
表示瓶颈路段在s状态下的密度,k
cr
表示瓶颈路段的关键密度;S32、设计安全性能函数,并构造回报值r
safety
的附加修正函数,公式表达如下:的附加修正函数,公式表达如下:式中,f2(s
→
s
′
)是回报r
safety
的附加修正函数,表示从s...
【专利技术属性】
技术研发人员:郑思,李志斌,冯汝怡,黎萌,王顺超,王秉通,
申请(专利权)人:东南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。