一种基于强化学习的公交车辆排班方法技术

技术编号:34323839 阅读:21 留言:0更新日期:2022-07-31 00:44
本发明专利技术公开了一种基于强化学习的公交车辆排班方法,属于公交车辆排班领域,具体为:首先、将某条公交线路的车辆排班问题建模为马尔可夫决策过程,其中包括状态,动作、奖励三个要素。将发车时刻表中每个时刻点作为一个决策点,利用强化学习智能体选取当前可用车辆从该时刻点发出,从而覆盖该时刻点。构建公交车辆排班的仿真环境,通过智能体与仿真环境的交互,利用强化学习算法获得智能体的最优策略。然后,利用智能体对发车时刻表中每个时刻点按时间顺序逐点决策,由此得到公交车排班方案。本发明专利技术提供了一种公交车辆的在线调度方法,在发生交通拥堵,交通事故等不确定事件的情况下,能保证全部覆盖发车时刻表,且所用车辆数目少。目少。目少。

【技术实现步骤摘要】
一种基于强化学习的公交车辆排班方法


[0001]本专利技术属于公交车辆排班领域,特别涉及一种基于强化学习的公交车辆排班方法。

技术介绍

[0002]公交车辆排班是提高公交服务质量的关键一环。
[0003]目前解决公交车排班问题使用的方法大多是基于精确算法和启发式算法,精确算法虽能 求出最优解,但是对于算力要求较高,无法很好的解决比较复杂的公交车辆排班问题;而启 发式算法虽能解决一些复杂的问题,且能获得一些不错的排班,但由于缺乏实时决策,导致 应对突发情况的能力较差,而且有时无法保证时刻点的全覆盖这一重要要求。
[0004]由于现有方法都是每次产生一个完整排班方案的离线调度方法,因此无法在时刻点粒度 根据某个时刻点的实时信息进行实时决策。然而,在实际应用场景中,由于城市交通问题的 复杂性,交通拥堵,交通事故等不确定事件是一种很常见的现象,在遇到这样的现象时,原 有的车辆排班方法往往不能很好地应对。
[0005]因此,亟需提出一种能进行实时决策,同时有良好的突发情况应对能力的公交车辆排班 方法。

技术实现思路

[0006]针对上述问题,本专利技术提供一种基于强化学习的公交车辆排班方法,以实现实时决策, 同时能应对动态事件并提供保证时刻点全覆盖的优秀排班时刻表。
[0007]所述的基于强化学习的公交车辆排班方法,具体步骤如下:
[0008]步骤一、对于给定的公交线路的发车时刻表,利用强化学习进行车辆排班(调度)。将公 交车辆排班问题看作序列决策过程,发车时刻表中每个时刻点作为决策点。对于每个时刻点, 由智能体根据控制点中车辆的信息,选取一个车辆在该时刻点从该控制点发出,从而覆盖该 时刻点。利用智能体对发车时刻表中的所有时刻点进行逐点决策,使得时刻表中每个时刻都 有车辆发出,最终形成车辆排班方案。
[0009]步骤二、将公交车辆排班问题建模为包括状态,动作和奖励三要素的马尔可夫决策过程。
[0010]1)状态:对于当前控制点内每个可供选择的车辆,为其构建一个车辆表示向量,该向量 包含该车辆与排班相关的行驶信息。可供选择的车辆指当前时刻停靠在该控制点内的可发车 的车辆以及还未发出的车辆。由所有可供选择车辆的表示向量构成的矩阵,作为状态。为保 证强化学习算法的收敛速度,进一步从行空间和列空间两个角度对状态矩阵进行降维。
[0011]对于行空间的降维过程为:首先,逐个判断各车辆是否符合条件约束。其中约束条件是 指:在当前发车时刻点,该车是否具备发车条件,即是否满足位置,休息时间和工作时间的 约束。然后,将符合条件约束的车辆划分为已发车车辆和未发车车辆,不符合条件约
束的车 单独分类;最后,在某个发车时刻点符合条件约束的未发车车辆可缩减为一行,而不符合条 件约束的车用来填充状态矩阵,保证矩阵的形状不变,因此最终缩减了状态矩阵的行数。
[0012]对于列空间降维为:构造更精简的车辆表示向量,来减少状态矩阵的列数。通过分析车 辆行驶信息中与排班最相关的信息,挑选出剩余可行驶时间,休息时间,趟次数,剩余可工 作时间和车辆类型五项信息。
[0013]2)动作:即智能体所选的车辆。
[0014]对于符合约束条件且已发车的车辆,直接发出该车辆。
[0015]对于符合条件约束且未发车的车辆,维护一个新车堆,当选择到该类车时,则从新车堆 中随机选出一辆车发出;
[0016]3)奖励:采用主线奖励和支线奖励结合的策略,使用公交车辆排班问题的目标来构造奖 励函数,目标包括使用的车辆数目,奇数行程数的车辆数目和时刻点覆盖情况三项。
[0017]在奖励设计中,本专利技术采用了主线奖励和支线奖励相结合的奖励设置方法,支线奖励在 每步决策后给出,主线奖励在决策的最后一步给出。
[0018]主线奖励包括:1.未使用车辆数目的奖励N
u
;2.车辆运行时间方差的惩罚σ
h
;3.具有奇数 行程的车辆数目惩罚N
o
;4.短班车数目的惩罚N
s
;5.执行满行程的车辆数目奖励N
f

[0019]主线奖励为这五项的加权和:
[0020]r
m
=w1×
N
u

w2×
σ
h

w3×
N
o

w4×
N
s
+w5×
N
f
[0021]其中w1、w2、w3、w4、w5分别正实数权值。
[0022]支线奖励包括:1.所选车是否为新车r
n
;2.所选车的空闲时间在所有可选车辆中的排名r
k
; 3.车辆包含的行程数为偶数,则奖励r
o
;4.所选车是否为长班车r
l
;5.存在可用车辆时仍选择 发新车,则惩罚r
e
;6.车辆执行完行程后的等待时间r
w

[0023]支线奖励为这六项的加权和:
[0024]r
s


w
‘1×
r
n

w
‘2×
r
k
+w
‘3×
r
o
+w
‘4×
r
l

w
‘5×
r
e

w
‘6×
r
w
[0025]其中w
‘1、w
‘2、w
‘3、w
‘4、w
‘5、w
‘6为正实数权值。
[0026]步骤三、构建公交车辆排班仿真环境,智能体通过与仿真环境的交互,借助强化学习算 法来获取最优策略。
[0027]仿真环境为车辆运营过程的模拟。仿真环境中包含运营时间内任一时刻的车辆行驶信息, 具体包括车辆位置、行驶方向、运行时间、工作时间、休息时间等。这些信息作为智能体的 输入,智能体根据输入产生输出的动作(即选择发出的车辆),动作作用于仿真环境来更新车 辆行驶信息。通过智能体与环境的交互,实现车辆运营过程的模拟。
[0028]智能体通过与仿真环境交互获取训练数据,并不断进行学习。所述的强化学习算法包括 基于值的强化学习算法,基于策略的强化学习算法、基于Actor

Critic的强化学习算法三类。 在符合问题的约束条件下,利用强化学习算法得到智能体的最优策略。利用不合理动作掩码 (invalid action masking)和不合理动作惩罚(invalid action penalty)两种方式来实现问题的 约束条件。
[0029]本专利技术与现有技术相比具有以下优点和有益效果:
[0030]1)一种基于强化学习的公交车辆排班方法,相对传统的方法,本专利技术将公交车辆
排班问 题建本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的公交车辆排班方法,其特征在于:(1)对于给定的公交线路的发车时刻表,利用强化学习进行车辆排班;将公交车辆排班问题建模为马尔可夫决策过程,发车时刻表中每个时刻点作为决策点;对于每个时刻点,由智能体根据控制点中车辆的信息,选取一个车辆在该时刻点从该控制点发出,从而覆盖该时刻点;利用智能体对发车时刻表中的所有时刻点进行逐点决策,使得时刻表中每个时刻都有车辆发出,最终形成车辆排班方案;(2)车辆排班问题的马尔可夫决策过程模型包括状态、动作和奖励;状态为智能体的输入,包括:当前时刻点所有可选车辆的信息;动作为智能体的输出,即:选取控制点中的某一车辆在该时刻点发出;奖励包括:车辆数目和车辆等待时间;(3)构建公交车辆排班仿真环境,智能体通过与仿真环境的交互,借助强化学习算法来获取最优策略。2.根据权利要求1所述的一种基于强化学习的公交车辆排班方法,其特征在于,所述排班仿真环境为车辆运营过程的模拟;仿真环境中包含运营时间内任一时刻的车辆行驶信息,具体包括车辆位置、行驶方向、运行时间、工作时间和休息时间,这些信息作为智能体的输入,智能体根据输入产生输出的动作,即选择发出的车辆,动作作用于仿真环境来更新车辆行驶信息;通过智能体与环境的交互,实现车辆运营过程的模拟。3.根据权利要求1所述的一种基于强化学习的公交车辆排班方法,其特征在于,所述马尔可夫决策过程,其特征在于:1)状态:对于当前控制点内每个可供选择的车辆,为其构建一个车辆表示向量,该向量包含该车辆与排班相关的行驶信息;可供选择的车辆指当前时刻停靠在该控制点内的可发车的车辆以及还未发出的车辆;由所有可供选择车辆的表示向量构成的矩阵,作为状态;2)动作:对于每个决策点,智能体的动作为选取一个可供选择的车辆从该时刻表中发出;动作空间中包括所有的可供选择的车辆,其中还未发出的车辆表示为一辆车;3)奖励:包括主线奖励和支线奖励;根据车辆排班问题的优化目标来构造奖励函数,奖励需要考虑的因素包括:车辆数目,执行奇数行程的车辆数和时刻点覆盖情况。4.根据权利要求3所述的一种基于强化学习的公交车辆排班方法,其特征在于,所述的奖励,采用主线奖励和支线奖励相结合的奖励方法,支线奖励在每步决策后给出,主线奖励在决策的最后一步给出;主线奖励包括:1.未使用车辆数目的奖励N
u
;2.车辆运行时间方差的惩罚σ
h
;3.具有奇数...

【专利技术属性】
技术研发人员:左兴权刘英卓黄海艾冠群
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1