一种基于强化学习的高速公路交通管控方法技术

技术编号:36692333 阅读:17 留言:0更新日期:2023-02-27 20:00
本发明专利技术涉及交通控制技术领域,具体涉及一种基于强化学习的高速公路交通管控方法,包括以下步骤:步骤一:读取交通管控区域的道路信息,对道路进行区域划分;步骤二:根据区域划分构建离线仿真模型,所述离线仿真模型对交通管控区域的交通进行仿真;步骤三:训练所述离线仿真模型,训练后的离线仿真模型记为智能体;步骤四:将所述智能体部署到实际预测控制模型中,以单位时间最大通过量为目标函数,周期性计算获得优化管控策略,执行所述优化管控策略。本发明专利技术的有益技术效果包括:利用强化学习训练智能体,克服模型预测控制对于交通流预测模型过度依赖的缺点,提高了预测的准确度,从而实现有效管控策略的准确解算,获得更为优化的管控策略。的管控策略。的管控策略。

【技术实现步骤摘要】
一种基于强化学习的高速公路交通管控方法


[0001]本专利技术涉及交通控制
,具体涉及一种基于强化学习的高速公路交通管控方法。

技术介绍

[0002]由于土地资源紧张、环境保护等因素制约,高速公路建设步伐变缓,同时汽车保有量不断上升,部分路段交通流量趋于饱和,高速公路在供给能力和效率方面越来越难以满足日益增长的服务需求,亟需通过信息化和智能化手段来提升高速公路运行效率与安全。交通管控作为提升高速公路运行效率与安全的有效手段,其主要通过可变限速和匝道限流等措施来优化道路资源的时空分配,从而提高道路运行效率,进而减缓交通拥堵和提升服务质量。可变限速控制方法通过调节瓶颈区上游区域的限速,将进入瓶颈区的车辆数控制在一定范围内,从而提高瓶颈区运行效率。匝道限流控制方法通过限制匝道汇入的车流量,从而缓解瓶颈区拥堵。
[0003]目前在高速公路交通管控过程中,交通管控策略大多是管理人员依据经验来制定的。由于仅基于经验,现有交通管控策略的实施效果并不理想,难以符合实际需求。同时,人工方法也无法适应动态变化的交通需求与流量。因此,一种自动化和智能化的交通管控方法显得至关重要。
[0004]现有技术公开了一种模型预测控制(Model Predictive Control,MPC)技术。作为自动化交通管控的重要方法之一,能够基于交通流预测模型,实现对交通运行态势的预测,并通过求解全局最优或局部最优化问题来确定最佳策略。然而这种方法受限于交通流预测模型的精度,而实际交通运行条件时变复杂,交通流的预测精准低,控制效果无法保证。因此有必要研究新的能够更为有效、更为准确的对交通流进行管控的技术。

技术实现思路

[0005]本专利技术所要解决的技术问题:目前缺乏对交通流进行准确管控方案的技术问题。提出了一种基于强化学习的高速公路交通管控方法,能够有效提高高速公路的通行能力。
[0006]解决上述技术问题,本专利技术采用如下技术方案:一种基于强化学习的高速公路交通管控方法,包括以下步骤:
[0007]步骤一:读取交通管控区域的道路信息,对道路进行区域划分;
[0008]步骤二:根据区域划分构建离线仿真模型,所述离线仿真模型对交通管控区域的交通进行仿真;
[0009]步骤三:使用历史交通数据训练所述离线仿真模型,训练后的离线仿真模型记为智能体;
[0010]步骤四:将所述智能体部署到实际预测控制模型中,以单位时间最大通过量为目标函数,周期性计算获得优化管控策略,执行所述优化管控策略。
[0011]作为优选,步骤一中,进行区域划分的方法包括:
[0012]将交通管控区域的道路划分为以下区域类型:可变限速区域K0、加速区域J、合流区域H和匝道区域Z0;
[0013]将可变限速区域K0的上游区域划分为L

1个主路检测区域,分别记为K1,K2,

,K
L
‑1;
[0014]将匝道区域Z0的上游区域划分为L

1个匝道检测区域,分别记为Z1,Z2,

,Z
L
‑1。
[0015]作为优选,步骤一中,构建离线仿真模型的方法包括:
[0016]设置离线仿真模型的状态量,所述状态量包括:可变限速区域K0及其上游区域的交通流密度{qK0,qK1,

,qK
L
‑1},合流区域交通流密度qH、匝道区域及其上游区域的交通流密度{qZ0,qZ1,

,qZ
L
‑1},状态量记为{qK0,

,qK
L
‑1,qH,qZ0,

,qZ
L
‑1};
[0017]设置离线仿真模型的动作,设置控制步长L,将所述动作设置为可变限速区域K0内在L步长内的限速值序列{V0,V1,

,V
L
‑1}和匝道区域Z0在L步长内的汇入率序列{P0,P1,

,P
L
‑1};
[0018]设置离线仿真模型的奖励,在控制步长L内的总通行时间TTT作为奖励,
[0019][0020]其中,T表示控制步长的间隔时长,q
in
(t)表示t时刻控制区域内的流入交通流密度,q
out
(t)表示t时刻控制区域内的流出交通流密度。
[0021]作为优选,步骤一中,构建离线仿真模型的方法还包括构建仿真环境,
[0022]构建仿真环境的方法包括:
[0023]根据交通管控区域的道路信息建立道路模型;
[0024]将流入交通流数据及流出交通流数据导入到道路模型,设置车辆在道路区域的运动模型,构成交通流仿真模型;
[0025]所述交通流仿真模型作为离线仿真模型。
[0026]作为优选,设置车辆在道路区域的运动模型的方法包括:
[0027]设置车辆属性,所述车辆属性包括位置和速度,所述位置和速度由流入交通流数据确定;
[0028]设置车辆变速控制函数,所述车辆变速控制函数以预设周期改变车辆的速度,所述车辆变速控制函数的输入为限速、与前车的距离、车辆加速度和车辆当前周期的速度,所述限速由车辆位置所处的区域类型确定。
[0029]分别设置车辆在可变限速区域K0、加速区域J、合流区域H和匝道区域Z0的车辆变速控制函数。
[0030]作为优选,步骤三中,训练所述离线仿真模型的方法包括:
[0031]选定交通管控模式,所述交通管控模式包括可变限速控制模式和匝道限流模式;
[0032]根据选定的交通管控模式训练所述离线仿真模型;
[0033]步骤四中,尝试生成的优化管控策略与选定的交通管控模式相符,使得单位时间内取得最大通过量的优化管控策略进行执行。
[0034]作为优选,选定交通管控模式为可变限速控制模式时,训练所述离线仿真模型的方法包括:
[0035]步骤A1)获取当前状态s
t
={qK0,

,qK
L
‑1,qH,qZ0,

,qZ
L
‑1};
[0036]步骤A2)生成并执行一个动作a
t
,a
t
={V0,V1,

,V
L
‑1};
[0037]步骤A3)通过离线仿真模型演算,得到下一状态s
t+1
,并获取强化信号r
t+1

[0038]步骤A4)更新Q值,依据强化信号r
t+1
按照下式计算Q值:
[0039]Q
t+1
(s
t
,a
t
)

Q
t
(s
t
,a
t
)+γ
·<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的高速公路交通管控方法,其特征在于,包括以下步骤:步骤一:读取交通管控区域的道路信息,对道路进行区域划分;步骤二:根据区域划分构建离线仿真模型,所述离线仿真模型对交通管控区域的交通进行仿真;步骤三:使用历史交通数据训练所述离线仿真模型,训练后的离线仿真模型记为智能体;步骤四:将所述智能体部署到实际预测控制模型中,以单位时间最大通过量为目标函数,周期性计算获得优化管控策略,执行所述优化管控策略。2.根据权利要求1所述的一种基于强化学习的高速公路交通管控方法,其特征在于,步骤一中,进行区域划分的方法包括:将交通管控区域的道路划分为以下区域类型:可变限速区域K0、加速区域J、合流区域H和匝道区域Z0;将可变限速区域K0的上游区域划分为L

1个主路检测区域,分别记为K1,K2,

,K
L
‑1;将匝道区域Z0的上游区域划分为L

1个匝道检测区域,分别记为Z1,Z2,

,Z
L
‑1。3.根据权利要求2所述的一种基于强化学习的高速公路交通管控方法,其特征在于,步骤一中,构建离线仿真模型的方法包括:设置离线仿真模型的状态量,所述状态量包括:可变限速区域K0及其上游区域的交通流密度{qK0,qK1,

,qK
L
‑1},合流区域交通流密度qH、匝道区域及其上游区域的交通流密度{qZ0,qZ1,

,qZ
L
‑1},状态量记为{qK0,

,qK
L
‑1,qH,qZ0,

,qZ
L
‑1};设置离线仿真模型的动作,设置控制步长L,将所述动作设置为可变限速区域K0内在L步长内的限速值序列{V0,V1,

,V
L
‑1}和匝道区域Z0在L步长内的汇入率序列{P0,P1,

,P
L
‑1};设置离线仿真模型的奖励,在控制步长L内的总通行时间TTT作为奖励,其中,T表示控制步长的间隔时长,q
in
(t)表示t时刻控制区域内的流入交通流密度,q
out
(t)表示t时刻控制区域内的流出交通流密度。4.根据权利要求3所述的一种基于强化学习的高速公路交通管控方法,其特征在于,步骤一中,构建离线仿真模型的方法还包括构建仿真环境,构建仿真环境的方法包括:根据交通管控区域的道路信息建立道路模型;将流入交通流数据及流出交通流数据导入到道路模型,设置车辆在道路区域的运动模型,构成交通流仿真模型;所述交通流仿真模型作为离线仿真模型。5.根据权利要求4所述的一种基于强化学习的高速公路交通管控方法,其特征在于,设置车辆在道路区域的运动模型的方法包括:设置车辆属性,所述车辆属性包括位置和速度,所述位置和速度由流入交通流数据确
定;设置车辆变速控制函数,所述车辆变速控制函数以预设周期改变车辆的速度,所述车辆变速控制函数的输入为限速、与前车的距离、车辆加速度和车辆当前周期的速度,所述限速由车辆位置所处的区域类型确定。6.根据权利要求3至5任一项所述的一种基于强化学习的高速公路交通管控方法,其特征在于,步骤三中,训练所述离线仿真模型的方法包括:选定交通管控模式,所述交通管控模式包括可变限速控制模式和匝道限流模式;根据选定的交通管控模式训练所述离线仿真模型;步骤四中,尝试生成的优化管控策略与选定的交通管控模式相符,使得单位时间内取得最大通过量的优化管控策略进行执行。7.根据权利要求6所述的一种基于强化学习的高速公路交通管控方法,其特征在于,选定交通管控模式为可变限速控制模式时,训练所述离线仿真模型的方法包括:步骤A1)获取当前状态s
t
={q...

【专利技术属性】
技术研发人员:金波娄刃何亚强汪成立张俊烨杨松张冶芳
申请(专利权)人:浙江省交通运输科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1