当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于强化学习可变限速控制的快速道路通行效率改善方法技术

技术编号:14048159 阅读:248 留言:0更新日期:2016-11-23 23:36
一种基于强化学习可变限速控制的快速道路通行效率改善方法。基于强化学习方法实时确定可变限速值,智能体依据交通流数据感知快速道路上交通流运行状态,针对当前状态选择一个限速值动作并计算该动作导致的状态转移的回报值,智能体遍历所有状态‑动作组合直到所有状态‑动作的回报值收敛,智能体离线习得不同交通流状态下的最优限速值动作。依据实时交通流数据智能体自主选择当前状态对应的最优限速值并发布,同时将控制后的交通流数据和限速值传回控制中心使智能体持续学习。本发明专利技术弥补了之前可变限速控制中交通流状态和限速值之间对应关系确定的主观随意性,提高了控制系统的抗干扰能力,通过智能体持续挖掘可变限速值对通行效率改善的影响规律,实现依据实时交通流数据对可变限速值进行反馈调节,有效提升了瓶颈路段可变限速控制下道路的通行效率。

【技术实现步骤摘要】

本专利技术属于智能交通和交通控制
,具体涉及一种基于强化学习可变限速控制的快速道路通行效率改善方法
技术介绍
可变限速控制作为一种越来越被广泛用于改善快速道路通行效率的交通控制策略,其控制效果与可变限速值确定过程所采用的方法密切相关。强化学习作为一种闭环结构,通过控制效果对控制策略的反馈调节使智能体不断学习不同交通流状态下对应的最优限速值,有效提升了可变限速控制的效果和可变限速控制限速值的合理性。因此,基于强化学习的可变限速控制快速道路通行效率改善方法,可以通过强化学习使智能体掌握不同交通流运行状态下的最优限速值。现有可变限速控制策略中不同交通流状态下对应的限速值的确定依赖于工程师经验主观确定,同时可变限速控制对交通流运行的影响与期望有差异,可能导致控制策略无法达到最优控制效果。本专利技术提出基于强化学习可变限速控制的快速道路通行效率改善方法,相比于现有的反馈方法和在线优化方法,本专利技术提出的方法具有依据新的交通环境与数据持续学习的能力,通过实际道路交通环境下的最优控制策略的持续更新有效提升可变限速控制效果。
技术实现思路
本专利技术要解决的问题是:以往针对瓶颈路段的可变限速控制策略中交通流状态和限速值之间的对应关系主要由工程师主观确定,缺乏对不同交通流状态下不同可变限速值控制效果的客观分析,缺乏不同交通流状态下不同限速值与其控制效果之间的数据信息的挖掘,导致可变限速控制中限速值的确定过程缺乏理论性,具有一定主观随意性。现有的在线优化方法下的控制系统抗干扰能力较差。本专利技术提出一种基于强化学习可变限速控制的快速道路通行效率改善方法,通过计算机智能体学习可变限速控制策略对通行效率改善的规律,确定不同交通流状态下具有最优控制效果的可变限速控制策略。克服之前可变限速控制中限速值确定过程的主观随意性,实现根据实际效果和交通流数据对最优可变限速控制策略进行反馈调节。本专利技术技术方案为:本专利技术提出一种基于强化学习可变限速控制的快速道路通行效率改善方法,基于实测交通流数据训练智能体掌握不同交通流运行状态下的最优限速值,据此在可变限速控制路段发布当前交通流状态下的最优限速值,采集可变限速控制后的限速值与交通流数据使智能体依据新的交通环境与数据持续学习,本方法对实际中通过可变限速控制策略有效提高快速道路通行效率具有重要意义。实例显示,本专利技术提出的可变限速控制方法有很好效果,能有效减少快速道路路段内系统通行时间,还能不断依据实际应用后的限速值与交通流数据持续学习最优策略。附图说明图1为快速道路瓶颈路段的可变限速控制策略流程图。图2为主线交通流状态划分示意图。图3为匝道交通流状态划分示意图。图4为不同交通流密度对应的回报函数。图5为算例中瓶颈路段示意图。图6为算例流量-速度分布图。具体实施方式本专利技术是基于强化学习Q学习方法的基本原理和可变限速控制策略的基本流程提出针对瓶颈路段上游进行可变限速控制的策略,通过交通流检测器检测瓶颈路段及其上下游的交通流运行情况生成训练数据库,智能体通过离线学习掌握不同交通流状态下的最优可变限速值,在实际控制中智能体通过快速道路上实测交通流数据感知实时交通流状态,从知识库中选择当前状态对应的最优限速值对交通流进行动态调节,用控制实施后的交通流数据和限速值对智能体进行持续训练,基于强化学习可变限速控制的快速道路通行效率改善方法的流程图如图1所示。第一步是确定快速道路瓶颈路段及可变限速控制路段范围,以合理间距设置交通流检测器,获取快速道路瓶颈路段一段时间内的真实交通流数据,在可变限速控制路段上游端设置可变限速指示牌,用于发布可变限速值。第二步是基于实际交通流数据的变化范围及变化幅度确定强化学习方法中的交通流状态集和动作集。状态集是将连续的交通流密度划分为若干离散密度区间,由于需要了解瓶颈路段及其上下游交通流信息,所以状态集应包括瓶颈位置上下游及匝道的密度信息。基于真实交通流数据绘制流量-速度分布图寻找瓶颈路段交通流的关键密度,在自由流、拥堵状态和关键密度附近分别对交通流状态进行划分。快速道路主线交通流状态划分的范围为2veh/m/ln~80veh/m/ln,由于交通流运行状态在关键密度附近变化较为敏感,故关键密度附近以2veh/m/ln为步长划分交通流状态,在自由流和拥堵流中以8veh/m/ln为步长划分交通流状态,划分结果如图2所示。快速道路匝道交通流状态划分的范围为5veh/m/ln~45veh/m/ln,关键密度附近以2.5veh/m/ln为步长划分交通流状态,在自由流和拥堵流中以5veh/m/ln为步长划分交通流状态,划分结果如图3所示。综上所述,强化学习方法中的状态集共包含13×13×11=1859种交通状态。动作集是可变限速控制中的不同限速值,限速值应在路段允许的最高和最低限速值之间,即VSL∈{Vmin,Vmax本文档来自技高网...
一种基于强化学习可变限速控制的快速道路通行效率改善方法

【技术保护点】
一种基于强化学习可变限速控制的快速道路通行效率改善方法,其特征是包括步骤:1)确定快速道路瓶颈路段及可变限速控制路段范围,以合理间距设置交通流检测器,获取快速道路瓶颈路段一段时间内的真实交通流数据,在可变限速控制路段上游端设置可变限速指示牌,用于发布可变限速值;2)确定强化学习方法中的交通流状态集和动作集,状态集包括瓶颈位置上下游及匝道的密度信息,因此交通流状态集中的每个元素是一个记录了瓶颈位置上下游及匝道的密度的状态向量S,在自由流、拥堵状态和关键密度附近分别对交通流状态进行划分;动作集为不同限速值,应在路段允许的最高和最低限速值之间,即VSL∈{Vmin,Vmax},同时考虑到驾驶员对限速值的接受情况,发布的限速值取为5或10的整数倍;3)基于提高快速道路通行效率这一目标确定强化学习的著名算法Q学习算法中的回报函数,所述Q学习方法中回报函数依据路段交通流密度设置,假设各交通流密度对应的回报函数服从泊松分布,回报函数表达式如下:R(s)=μgPr(X=s)=μgλse-λs!]]>其中,R(s)为状态s对应的回报值,μ为决定回报值幅度的参数,缺省值为1×104,Pr(X=s)为状态s的概率函数,λ为泊松分布参数,缺省值为26.9辆/英里;4)基于步骤1)中采集到的交通流和可变限速控制状态数据库训练智能体,步骤包括:401)初始化,Q学习中的参数Q值反映不同状态下选择不同动作的长期回报,初始状态下将所有“状态‑行为”对应的Q值设置为零,将可变限速控制前后5分钟的数据集计后用于判断交通流状态的转移情况;402)基于步骤401)中的初始化数据开始Q学习,在Q学习每一个时间步中,首先判断当前交通流状态,再判断当前状态是否已执行20次动作选择,若是,则进入步骤403);若不是则强制智能体尝试当前状态对应的不同动作实现“状态‑行为”集的遍历,再进入步骤404);403)采用softmax动作选择策略根据下式计算当前状态下选择各动作的概率:Ps(a)=eQ(s,a)/TΣb∈AeQ(s,a)/T]]>其中,Ps(a)为在状态s下选择行动a的概率,T为退火温度,Qt(s,a)为当前时刻“状态‑行为”对应的Q值;404)将步骤3)中计算得到的“状态‑行为”回报值和步骤402)或步骤403)中做出的动作选择带入下式更新Q值:Qt+1(st,at)=Rt+1+0.8×max Qt(st+1,at+1)其中,Qt+1(st,at)为t+1时刻对应的Q值,Qt(st+1,at+1)为t时刻对应的Q值,Rt+1为t+1时刻对应的回报函数值;405)判断Q值是否收敛,若是则将每个状态下最大Q值对应的动作确定为最优控制策略;若不是,则返回步骤3)转入下一个时间步;5)基于步骤405)中给出的最优可变限速控制策略,检测当前交通流检测器的数据并依据步骤2)确定的状态划分确定主线及匝道的交通流状态,采用训练后的智能体实时选择当前交通流状态下的最优限速值并传递至可变限速控制指示牌发布限速值;6)实时采集步骤5)中发布最优限速值后的交通流数据和限速值并传回控制系统,智能体依据新的交通流数据和限速值重复步骤4)持续学习最优控制策略。...

【技术特征摘要】
1.一种基于强化学习可变限速控制的快速道路通行效率改善方法,其特征是包括步骤:1)确定快速道路瓶颈路段及可变限速控制路段范围,以合理间距设置交通流检测器,获取快速道路瓶颈路段一段时间内的真实交通流数据,在可变限速控制路段上游端设置可变限速指示牌,用于发布可变限速值;2)确定强化学习方法中...

【专利技术属性】
技术研发人员:李志斌刘攀王炜徐铖铖
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1