一种基于强化学习可变限速控制的快速道路通行效率改善方法技术

技术编号：14048159 阅读：248 留言：0更新日期：2016-11-23 23:36

一种基于强化学习可变限速控制的快速道路通行效率改善方法。基于强化学习方法实时确定可变限速值，智能体依据交通流数据感知快速道路上交通流运行状态，针对当前状态选择一个限速值动作并计算该动作导致的状态转移的回报值，智能体遍历所有状态‑动作组合直到所有状态‑动作的回报值收敛，智能体离线习得不同交通流状态下的最优限速值动作。依据实时交通流数据智能体自主选择当前状态对应的最优限速值并发布，同时将控制后的交通流数据和限速值传回控制中心使智能体持续学习。本发明专利技术弥补了之前可变限速控制中交通流状态和限速值之间对应关系确定的主观随意性，提高了控制系统的抗干扰能力，通过智能体持续挖掘可变限速值对通行效率改善的影响规律，实现依据实时交通流数据对可变限速值进行反馈调节，有效提升了瓶颈路段可变限速控制下道路的通行效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于智能交通和交通控制
，具体涉及一种基于强化学习可变限速控制的快速道路通行效率改善方法。
技术介绍
可变限速控制作为一种越来越被广泛用于改善快速道路通行效率的交通控制策略，其控制效果与可变限速值确定过程所采用的方法密切相关。强化学习作为一种闭环结构，通过控制效果对控制策略的反馈调节使智能体不断学习不同交通流状态下对应的最优限速值，有效提升了可变限速控制的效果和可变限速控制限速值的合理性。因此，基于强化学习的可变限速控制快速道路通行效率改善方法，可以通过强化学习使智能体掌握不同交通流运行状态下的最优限速值。现有可变限速控制策略中不同交通流状态下对应的限速值的确定依赖于工程师经验主观确定，同时可变限速控制对交通流运行的影响与期望有差异，可能导致控制策略无法达到最优控制效果。本专利技术提出基于强化学习可变限速控制的快速道路通行效率改善方法，相比于现有的反馈方法和在线优化方法，本专利技术提出的方法具有依据新的交通环境与数据持续学习的能力，通过实际道路交通环境下的最优控制策略的持续更新有效提升可变限速控制效果。
技术实现思路
本专利技术要解决的问题是：以往针对瓶颈路段的可变限速控制策略中交通流状态和限速值之间的对应关系主要由工程师主观确定，缺乏对不同交通流状态下不同可变限速值控制效果的客观分析，缺乏不同交通流状态下不同限速值与其控制效果之间的数据信息的挖掘，导致可变限速控制中限速值的确定过程缺乏理论性，具有一定主观随意性。现有的在线优化方法下的控制系统抗干扰能力较差。本专利技术提出一种基于强化学习可变限速控制的快速道路通行效率改善方法，通过计算机智能...

【技术保护点】
一种基于强化学习可变限速控制的快速道路通行效率改善方法，其特征是包括步骤：1)确定快速道路瓶颈路段及可变限速控制路段范围，以合理间距设置交通流检测器，获取快速道路瓶颈路段一段时间内的真实交通流数据，在可变限速控制路段上游端设置可变限速指示牌，用于发布可变限速值；2)确定强化学习方法中的交通流状态集和动作集，状态集包括瓶颈位置上下游及匝道的密度信息，因此交通流状态集中的每个元素是一个记录了瓶颈位置上下游及匝道的密度的状态向量S，在自由流、拥堵状态和关键密度附近分别对交通流状态进行划分；动作集为不同限速值，应在路段允许的最高和最低限速值之间，即VSL∈{Vmin,Vmax}，同时考虑到驾驶员对限速值的接受情况，发布的限速值取为5或10的整数倍；3)基于提高快速道路通行效率这一目标确定强化学习的著名算法Q学习算法中的回报函数，所述Q学习方法中回报函数依据路段交通流密度设置，假设各交通流密度对应的回报函数服从泊松分布，回报函数表达式如下：R(s)=μgPr(X=s)=μgλse-λs!]]>其中，R(s)为状态s对应的回报值，μ为决定回报值幅度的参数，缺...

【技术特征摘要】
1.一种基于强化学习可变限速控制的快速道路通行效率改善方法，其特征是包括步骤：1)确定快速道路瓶颈路段及可变限速控制路段范围，以合理间距设置交通流检测器，获取快速道路瓶颈路段一段时间内的真实交通流数据，在可变限速控制路段上游端设置可变限速指示牌，用于发布可变限速值；2)确定强化学习方法中...

【专利技术属性】
技术研发人员：李志斌，刘攀，王炜，徐铖铖，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人