【技术实现步骤摘要】
高速公路动态收费方法、装置、设备及存储介质
[0001]本专利技术涉及强化学习
,尤其涉及到一种高速公路动态收费方法、装置、设备及存储介质。
技术介绍
[0002]我国的落地实施的高速公路动态收费方案为差异化收费:分支付方式、分车型、分时段、分方向、分路段方式,收费的“动态性”有限,不能很好适应高速公路实时的动态变化。
[0003]拥挤收费是指在本不收费的城市道路上,在交通拥挤时段对部分道路或区域内对旅行者收取一定的费用,以舒缓拥堵,其本质上是交通需求管理措施。拥堵收费一般分为静态收费和动态收费两类,静态收费仅考虑空间维度,不考虑系统的时变性,忽略当前收费对路网的影响。而动态收费将时间和空间两维度综合考虑,不同的路段在不同的时间段,收取的费用不同[8]。高速公路动态收费实质上是动态拥挤收费在中国高速公路上的一种扩展应用。
[0004]动态收费是在拥挤收费的基础上考虑收费费率与交通状态的适应,动态调整费率的收费方案。Joksimovic等(2005),Lu等(2008)的工作都对动态收费问题进行有探索。Zhang等(2013)提出了基于交通动力学的方法,但是该方法假设不同节点间的交通需求是固定的,假设条件过于理想。后出现的Δ
‑
tolling(2017)虽然基于实时的交通流进行动态收费,但是由于该方法也未主动考虑模型中的交通需求,故可能会导致模型难以达到最优性能。
[0005]强化学习在道路动态收费问题上的首次应用,是Chen等(2018)通过将交通动力学问题形式化为马尔 ...
【技术保护点】
【技术特征摘要】
1.一种高速公路动态收费方法,其特征在于,所述方法包括以下步骤:建立高速路网仿真环境模型,确定强化学习模型的系统状态;建立旅行者选道模型,根据系统状态和旅行者选道模型,确定强化学习模型的系统策略;根据所述系统策略,确定每个收费路段对应的智能体进行费率调整的系统动作;计算执行当前系统动作后的系统奖励,并根据系统奖励不断调整强化学习模型的系统策略;当系统奖励达到最大时,确定每个收费路段当前最佳的费率调整方案。2.如权利要求1所述的高速公路动态收费方法,其特征在于,建立高速路网仿真环境模型步骤中,包括:建立高速路络的三元组G=(V,E,A),V={v
i
|i≤N}为有限非空集合,表示高速路网中的节点集合,N为节点个数;E={e
ij
|i≤N,j≤N}为相邻节点间边的集合;邻接矩阵表示高速路网中两节点之间的联通信息;定义每个时间步长Δ
t
,所有时间步的集合Γ={t0,t1,t2,Lt
T/Δt
},T是Δ
t
的整数倍;定义智能体进行费率调整的系统动作的时间间隔Δ
τ
=mΔ
t
,m为收费管理部门确定的固定值;定义费率调整的时间序列集Γ
τ
={k|t
km
∈T,k∈{0,1,2,L}}。3.如权利要求2所述的高速公路动态收费方法,其特征在于,建立高速路网仿真环境模型步骤中,还包括:用均值为d
rs
(t)标准差为σ
d
的修正高斯随机变量建模在时间步t∈T时从源节点r∈N
o
到目的节点r∈N
d
的车流需求;使用Daganzo的CTM模型来建模交通流,把路网中的每条道路e
ij
划分成独立的子路段;用ξ
ij
表示属于路段e
ij
∈E的所有子路段的集合,对于每个c∈ξ,其长度用l
c
表示,由车辆在一个时间步内按照自由流速度,所行驶的距离确定;在每个时间步,路段交通状态由位于每个子路段中的车辆数量组成;用l
ij
,v
ij
,q
max.ij
,k
max,ij
分别表路段e
ij
的长度、在该路段上行驶车辆的自由流动速度、容量、发生拥堵时的密度。4.如权利要求3所述的高速公路动态收费方法,其特征在于,建立旅行者选道模型步骤中,包括:基于决策路线模型建立旅行者选道模型;其中,所述旅行者选道模型通过旅行者在收费站入口和行驶中的岔路口选道时,同时判断不同路线距离和不同路线的效用函数值,选择距离较短或效用函数值较大的路线驶入;其中,效用函数值的表示为:U=
‑
(∑e
ij
Ηe
ij
+∑e
ij
(β
ij
*f))其中,为从当前节点到达目的节点的一个路段,path为从当前节点到目的节点所经历的所有路段集合,表示从当前节点到达目的节点的一条路径,E
′
为从当前节点到达目的节点的所有不同路径的集合,f为某一路径总的通行费用。以Η=max(l
ij
/v
ij
,V
total
/q
max,ij
)近似作为当前状态下经过每个路段所需时间,V
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。