【技术实现步骤摘要】
一种基于强化学习的公交车辆排班方法
[0001]本专利技术属于公交车辆排班领域,特别涉及一种基于强化学习的公交车辆排班方法。
技术介绍
[0002]公交车辆排班是提高公交服务质量的关键一环。
[0003]目前解决公交车排班问题使用的方法大多是基于精确算法和启发式算法,精确算法虽能 求出最优解,但是对于算力要求较高,无法很好的解决比较复杂的公交车辆排班问题;而启 发式算法虽能解决一些复杂的问题,且能获得一些不错的排班,但由于缺乏实时决策,导致 应对突发情况的能力较差,而且有时无法保证时刻点的全覆盖这一重要要求。
[0004]由于现有方法都是每次产生一个完整排班方案的离线调度方法,因此无法在时刻点粒度 根据某个时刻点的实时信息进行实时决策。然而,在实际应用场景中,由于城市交通问题的 复杂性,交通拥堵,交通事故等不确定事件是一种很常见的现象,在遇到这样的现象时,原 有的车辆排班方法往往不能很好地应对。
[0005]因此,亟需提出一种能进行实时决策,同时有良好的突发情况应对能力的公交车辆排班 方法。
技术实现思路
[0006]针对上述问题,本专利技术提供一种基于强化学习的公交车辆排班方法,以实现实时决策, 同时能应对动态事件并提供保证时刻点全覆盖的优秀排班时刻表。
[0007]所述的基于强化学习的公交车辆排班方法,具体步骤如下:
[0008]步骤一、对于给定的公交线路的发车时刻表,利用强化学习进行车辆排班(调度)。将公 交车辆排班问题看作序列决策过程,发车时刻表中每个时 ...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习的公交车辆排班方法,其特征在于:(1)对于给定的公交线路的发车时刻表,利用强化学习进行车辆排班;将公交车辆排班问题建模为马尔可夫决策过程,发车时刻表中每个时刻点作为决策点;对于每个时刻点,由智能体根据控制点中车辆的信息,选取一个车辆在该时刻点从该控制点发出,从而覆盖该时刻点;利用智能体对发车时刻表中的所有时刻点进行逐点决策,使得时刻表中每个时刻都有车辆发出,最终形成车辆排班方案;(2)车辆排班问题的马尔可夫决策过程模型包括状态、动作和奖励;状态为智能体的输入,包括:当前时刻点所有可选车辆的信息;动作为智能体的输出,即:选取控制点中的某一车辆在该时刻点发出;奖励包括:车辆数目和车辆等待时间;(3)构建公交车辆排班仿真环境,智能体通过与仿真环境的交互,借助强化学习算法来获取最优策略。2.根据权利要求1所述的一种基于强化学习的公交车辆排班方法,其特征在于,所述排班仿真环境为车辆运营过程的模拟;仿真环境中包含运营时间内任一时刻的车辆行驶信息,具体包括车辆位置、行驶方向、运行时间、工作时间和休息时间,这些信息作为智能体的输入,智能体根据输入产生输出的动作,即选择发出的车辆,动作作用于仿真环境来更新车辆行驶信息;通过智能体与环境的交互,实现车辆运营过程的模拟。3.根据权利要求1所述的一种基于强化学习的公交车辆排班方法,其特征在于,所述马尔可夫决策过程,其特征在于:1)状态:对于当前控制点内每个可供选择的车辆,为其构建一个车辆表示向量,该向量包含该车辆与排班相关的行驶信息;可供选择的车辆指当前时刻停靠在该控制点内的可发车的车辆以及还未发出的车辆;由所有可供选择车辆的表示向量构成的矩阵,作为状态;2)动作:对于每个决策点,智能体的动作为选取一个可供选择的车辆从该时刻表中发出;动作空间中包括所有的可供选择的车辆,其中还未发出的车辆表示为一辆车;3)奖励:包括主线奖励和支线奖励;根据车辆排班问题的优化目标来构造奖励函数,奖励需要考虑的因素包括:车辆数目,执行奇数行程的车辆数和时刻点覆盖情况。4.根据权利要求3所述的一种基于强化学习的公交车辆排班方法,其特征在于,所述的奖励,采用主线奖励和支线奖励相结合的奖励方法,支线奖励在每步决策后给出,主线奖励在决策的最后一步给出;主线奖励包括:1.未使用车辆数目的奖励N
u
;2.车辆运行时间方差的惩罚σ
h
;3.具有奇数...
【专利技术属性】
技术研发人员:左兴权,刘英卓,黄海,艾冠群,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。