当前位置: 首页 > 专利查询>云南大学专利>正文

高速公路动态收费方法、装置、设备及存储介质制造方法及图纸

技术编号:37822495 阅读:16 留言:0更新日期:2023-06-09 09:59
本发明专利技术公开了一种高速公路动态收费方法、装置、设备及存储介质,所述方法包括:建立高速路网仿真环境模型,确定强化学习模型的系统状态;建立旅行者选道模型,根据系统状态和旅行者选道模型,确定强化学习模型的系统策略;根据所述系统策略,确定每个收费路段对应的智能体进行费率调整的系统动作;计算执行当前系统动作后的系统奖励,并根据系统奖励不断调整强化学习模型的系统策略;当系统奖励达到最大时,确定每个收费路段当前最佳的费率调整方案。本发明专利技术通过设计的真实中国高速路网仿真环境和旅行者选道模型上利用强化学习算法进行动态收费,以缓解拥堵,提高各方收益。提高各方收益。提高各方收益。

【技术实现步骤摘要】
高速公路动态收费方法、装置、设备及存储介质


[0001]本专利技术涉及强化学习
,尤其涉及到一种高速公路动态收费方法、装置、设备及存储介质。

技术介绍

[0002]我国的落地实施的高速公路动态收费方案为差异化收费:分支付方式、分车型、分时段、分方向、分路段方式,收费的“动态性”有限,不能很好适应高速公路实时的动态变化。
[0003]拥挤收费是指在本不收费的城市道路上,在交通拥挤时段对部分道路或区域内对旅行者收取一定的费用,以舒缓拥堵,其本质上是交通需求管理措施。拥堵收费一般分为静态收费和动态收费两类,静态收费仅考虑空间维度,不考虑系统的时变性,忽略当前收费对路网的影响。而动态收费将时间和空间两维度综合考虑,不同的路段在不同的时间段,收取的费用不同[8]。高速公路动态收费实质上是动态拥挤收费在中国高速公路上的一种扩展应用。
[0004]动态收费是在拥挤收费的基础上考虑收费费率与交通状态的适应,动态调整费率的收费方案。Joksimovic等(2005),Lu等(2008)的工作都对动态收费问题进行有探索。Zhang等(2013)提出了基于交通动力学的方法,但是该方法假设不同节点间的交通需求是固定的,假设条件过于理想。后出现的Δ

tolling(2017)虽然基于实时的交通流进行动态收费,但是由于该方法也未主动考虑模型中的交通需求,故可能会导致模型难以达到最优性能。
[0005]强化学习在道路动态收费问题上的首次应用,是Chen等(2018)通过将交通动力学问题形式化为马尔可夫决策过程(MDP),提出了一个以PG

β算法为核心的动态模型DyETC,显著改善了Δ

tolling方法存在的问题,在缓解交通拥堵方面取得不错的效果。尽管DyECT效果不错,但它只能在具有11个区域的道路网络上工作,不能扩展到大规模的道路网络。为了使动态收费模型能稳健的扩展到较大规模的问题,Qiu等先根据地理和经济特征将整个道路网络划分为不同分区,然后用多智能体强化学习算法为每个分区训练收费智能体(Agent),提出DPG

β算法,在性能和扩展性方面都取得了更好效果。此外,Pandey等(2020)采用现有的强化学习算法针对美国的管理公路(Managed Lanes)的动态收费问题进行研究。
[0006]上述些研究主要针对的是路网结构密集的城市道路进行到的,只在拥堵时段的部分路段进行收费,不能很好适应我国高速路网特征和其上的旅行者选道行为。
[0007]现有的国内外关于道路的动态收费研究主要分为两个方面,一种是国内外城市道路的拥挤收费问题相关研究,另一种是针对收费费率的确定问题的相关研究。研究成果丰富,但仍存在以下问题:
[0008](1)当前研究主要聚焦国内外城市路网,其路网由拥挤时段收费道路及其邻近的免费道路组成,城市道路路网密集旅行者受收费影响进行路径改变较为容易,且不同的路径选择到达目的地的距离差距有限;而我国高速公路路网密度远不如城市道路大且全路段
收费,旅行者一旦驶入路径改变较为困难,两者具有较大特征差异,导致现有的关于拥挤收费研究成果难以适应我国高速公路动态收费的实际情况。
[0009](2)基于上述国内外城市路网特征,现有的基于强化学习的动态收费方案中,假设旅行者在岔路口时仅根据收到当前通行时间和通行费用进行路线选择,即根据已产生的费用和已通行的时间选择后续行驶收费道路或免费道路以进行时间和权衡。由于(1)中所述中国高速公路路网的特征,对与其中的旅行者来说,路线的选择往往要考虑不同路线到达目的地的距离这一先验因素,上述现有研究中的假设显然并不适用。
[0010](3)现有的针对中国高速公路动态收费方案多停留在模型的优化设计和理论分析上,模型的验证也多在虚拟道路网络上进行,其在真实交通路网环境下的有效性有待验证。

技术实现思路

[0011]本专利技术的主要目的在于提供一种高速公路动态收费方法、装置、设备及存储介质,旨在解决设计的真实中国高速路网仿真环境和旅行者选道模型上利用强化学习算法进行动态收费,以缓解拥堵,提高各方收益。
[0012]为实现上述目的,本专利技术提供一种高速公路动态收费方法,所述方法包括以下步骤:
[0013]建立高速路网仿真环境模型,确定强化学习模型的系统状态;
[0014]建立旅行者选道模型,根据系统状态和旅行者选道模型,确定强化学习模型的系统策略;
[0015]根据所述系统策略,确定每个收费路段对应的智能体进行费率调整的系统动作;
[0016]计算执行当前系统动作后的系统奖励,并根据系统奖励不断调整强化学习模型的系统策略;
[0017]当系统奖励达到最大时,确定每个收费路段当前最佳的费率调整方案。
[0018]可选的,建立高速路网仿真环境模型步骤中,包括:
[0019]建立高速路络的三元组G=(V,E,A),V={vi|i≤N}为有限非空集合,表示高速路网中的节点集合,N为节点个数;E={e
ij
|i≤N,j≤N}为相邻节点间边的集合;A∈i
N
×
N
邻接矩阵表示高速路网中两节点之间的联通信息;
[0020]定义每个时间步长Δ
t
,所有时间步的集合Γ={t0,t1,t2,Lt
T/Δt
},T是Δ
t
的整数倍;定义智能体进行费率调整的系统动作的时间间隔Δ
τ
=mΔ
t
,m为收费管理部门确定的固定值;定义费率调整的时间序列集Γ
τ
={k|t
km
∈T,k∈{0,1,2,L}}。
[0021]可选的,建立高速路网仿真环境模型步骤中,还包括:
[0022]用均值为d
rs
(t)标准差为σ
d
的修正高斯随机变量建模在时间步t∈T时从源节点r∈No到目的节点r∈N
d
的车流需求;
[0023]使用Daganzo的CTM模型来建模交通流,把路网中的每条道路e
ij
划分成独立的子路段;用ξ
ij
表示属于路段e
ij
∈E的所有子路段的集合,对于每个c∈ξ,其长度用l
c
表示,由车辆在一个时间步内按照自由流速度,所行驶的距离确定;在每个时间步,路段交通状态由位于每个子路段中的车辆数量组成;用l
ij
,v
ij
,q
max.ij
,k
max,ij
分别表路段e
ij
的长度、在该路段上行驶车辆的自由流动速度、容量、发生拥堵时的密度。
[0024]可选的,建立旅行者选道模型步骤中,包括:
[0025]基于决策路线模型建立旅行者选道模型;
[0026]其中,所述旅行者选道模型通过旅行者在收费站入口和行驶中的岔本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种高速公路动态收费方法,其特征在于,所述方法包括以下步骤:建立高速路网仿真环境模型,确定强化学习模型的系统状态;建立旅行者选道模型,根据系统状态和旅行者选道模型,确定强化学习模型的系统策略;根据所述系统策略,确定每个收费路段对应的智能体进行费率调整的系统动作;计算执行当前系统动作后的系统奖励,并根据系统奖励不断调整强化学习模型的系统策略;当系统奖励达到最大时,确定每个收费路段当前最佳的费率调整方案。2.如权利要求1所述的高速公路动态收费方法,其特征在于,建立高速路网仿真环境模型步骤中,包括:建立高速路络的三元组G=(V,E,A),V={v
i
|i≤N}为有限非空集合,表示高速路网中的节点集合,N为节点个数;E={e
ij
|i≤N,j≤N}为相邻节点间边的集合;邻接矩阵表示高速路网中两节点之间的联通信息;定义每个时间步长Δ
t
,所有时间步的集合Γ={t0,t1,t2,Lt
T/Δt
},T是Δ
t
的整数倍;定义智能体进行费率调整的系统动作的时间间隔Δ
τ
=mΔ
t
,m为收费管理部门确定的固定值;定义费率调整的时间序列集Γ
τ
={k|t
km
∈T,k∈{0,1,2,L}}。3.如权利要求2所述的高速公路动态收费方法,其特征在于,建立高速路网仿真环境模型步骤中,还包括:用均值为d
rs
(t)标准差为σ
d
的修正高斯随机变量建模在时间步t∈T时从源节点r∈N
o
到目的节点r∈N
d
的车流需求;使用Daganzo的CTM模型来建模交通流,把路网中的每条道路e
ij
划分成独立的子路段;用ξ
ij
表示属于路段e
ij
∈E的所有子路段的集合,对于每个c∈ξ,其长度用l
c
表示,由车辆在一个时间步内按照自由流速度,所行驶的距离确定;在每个时间步,路段交通状态由位于每个子路段中的车辆数量组成;用l
ij
,v
ij
,q
max.ij
,k
max,ij
分别表路段e
ij
的长度、在该路段上行驶车辆的自由流动速度、容量、发生拥堵时的密度。4.如权利要求3所述的高速公路动态收费方法,其特征在于,建立旅行者选道模型步骤中,包括:基于决策路线模型建立旅行者选道模型;其中,所述旅行者选道模型通过旅行者在收费站入口和行驶中的岔路口选道时,同时判断不同路线距离和不同路线的效用函数值,选择距离较短或效用函数值较大的路线驶入;其中,效用函数值的表示为:U=

(∑e
ij
Ηe
ij
+∑e
ij

ij
*f))其中,为从当前节点到达目的节点的一个路段,path为从当前节点到目的节点所经历的所有路段集合,表示从当前节点到达目的节点的一条路径,E

为从当前节点到达目的节点的所有不同路径的集合,f为某一路径总的通行费用。以Η=max(l
ij
/v
ij
,V
total
/q
max,ij
)近似作为当前状态下经过每个路段所需时间,V

【专利技术属性】
技术研发人员:张熙王炜陈婧
申请(专利权)人:云南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1