一种基于深度强化学习的公交排班模型的设计方法、装置及系统制造方法及图纸

技术编号:29008248 阅读:32 留言:0更新日期:2021-06-26 05:07
本发明专利技术公开了一种基于深度强化学习的公交排班模型的设计方法,该方法包括步骤1,将排班过程转化为马尔科夫决策过程,步骤2,对马尔科夫决策过程进行求解,步骤3,根据求解结果进行排班,通过使用深度强化学习方法对发车时刻表进行排班,建立排班数学模型,将相关的信息参数化,仅调整参数即可针对不同城市进行排班;提升了公交的运营效率,降低公交的运营成本。本。

【技术实现步骤摘要】
一种基于深度强化学习的公交排班模型的设计方法、装置及系统


[0001]本专利技术涉及智能交通和深度学习研究领域,尤其是公交智能排班调度方面,具体涉及一种基于深度强化学习的公交排班模型的设计方法、装置及系统。

技术介绍

[0002]随着我国机动化水平的不断提高,城市基础设施建设发展迅速,城市面积不断扩张,城市的公交建设也越来越全面,然而随着公交规模的扩大,公交排班变得越来越困难,而智能排班方法在高效合理地给中起着至关重要的作用,它有助于更高效地利用公交资源、提供更高质量的公交服务。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:我国传统的公交排班主要依靠人工排班,凭借排班人员的经验,因此效率低,并且无法保证排班的合理性;现有排班方法效率低下,且往往进行一次排班之后,要经过很长时间进行下一次排班,无法灵活应对不断变化的客流。

技术实现思路

[0003]为了克服现有技术的不足,本公开实施例提供了一种基于深度强化学习的公交排班模型的设计方法、装置及系统,大大提高了排班的效率,所述技术方案如下:
[0004]第一方面,提供了一种基于深度强化学习的公交排班模型的设计方法,所述方法包括:
[0005]步骤1,根据发车时刻表,生成三个矩阵:规则矩阵X、排班矩阵Y、可选位置矩阵Z;建立马尔可夫决策过程;
[0006]所述规则矩阵X∈{0,1}
N
×
N
,规则矩阵的元素X
i,j
含义如下
[0007][0008]所述规则矩阵可以根据时刻表生成,所述班次i、j表示编号i、编号j对应的班次,所述发车时刻表中一共有N个班次,对时刻表中每一个班次按照时间顺序编号:1,2,

,N;
[0009]所述排班矩阵Y∈{0,1}
N
×
N
,元素Y
i,j
含义如下
[0010][0011]排班矩阵初始化元素全为0,后续根据每一步策略来改变其中的值。
[0012]可选位置矩阵Z∈{0,1}
N
×
N
,矩阵的元素Z
i,j
的含义如下
[0013][0014]可选位置矩阵初始化Z=X,后续根据执行策略来改变其中的值;
[0015]所述建立马尔可夫决策过程为:马尔可夫决策过程由(S,A,R,π,G)构成,其中S表
示状态空间,A表示动作空间,π
θ
表示策略,θ为策略的参数;用π
θ
(a|s)表示在策略π
θ
和状态s下动作a的概率分布,R表示回报奖励函数,G表示随时间累计的回报奖励;
[0016]根据排班的任务定义马尔可夫决策过程:
[0017]策略π
θ
具体为:策略神经网络
[0018]状态s:(X,Y,Z)∈S
[0019]动作a:(i,j)∈A,动作a的执行过程为:在Y
i,j
处填1,并将Z的第i行和第j列全部置为0
[0020]回报奖励R(s,a):
[0021][0022]所述Score(Y)为评分函数,Score(Y)∈表示实数域,所述评分函数用于评估排班结果的好坏;
[0023]步骤2,对排班策略神经网络进行训练:
[0024]获取初始化状态s0,所述初始化状态s0为规则矩阵、排班矩阵、可选位置矩阵三个矩阵的初始值;
[0025]计算状态s
t
对应动作的概率分布π
θ
(a|s
t
):
[0026]策略神经网络的输入是状态s
t
即三个矩阵的N
×
N
×
3的张量,网络的输出为N2维的向量,表示在排班矩阵中选中的位置,其中t表示执行的第t次操作;
[0027]根据概率分布随机选取动作a
t

[0028]执行动作a
t
后得到状态s
t+1

[0029]计算回报奖励r
t
=R(s
t
,a
t
);
[0030]执行完a
t
后得到s
t+1
,如果状态动作a
t
对应的Z
i,j
为0,则退出;如果执行完a
t
后,Z变成全是0,则退出;否则返回到步骤:计算状态s
t+1
对应动作的概率分布π
θ
(a|s
t+1
)
[0031]由此得到排班的轨迹τ
[0032]τ=s0,a0,r0,s1,a1,r1,

,s
T
,a
T
,r
T
[0033]根据强化学习的目标函数和策略梯度对策略神经网络的参数进行更新,即得到公交排班模型。
[0034]优选的,所述班次j可以由同一辆车在执行完班次i后执行,具体为:班次j的出发时间位于班次i的到达时间后的10~40min内。
[0035]优选的,所述评分函数Score(Y)为
[0036][0037]其中α和β为超参数,用于控制比例。
[0038]优选的,所述目标函数为:
[0039]所述策略梯度为:
[0040]所述对策略神经网络的参数进行更新的方式为:
[0041]进一步,还包括步骤3,使用步骤2训练好的模型进行排班,每一步选取的动作为a
t
=maxπ
θ
(a|s
t
),最终得到排班矩阵Y,即得到排班结果。
[0042]优选的,所述发车时刻表的生成方法为:
[0043]获取公交的历史客流数据,所述历史客流数据包括每个公交站点的上车人数及上车时间、下车人数及下车时间;
[0044]获取之前连续同种类型日期的n天历史客流数据,将其中每天的历史客流数据按照每隔Q min的时间聚合,得到每天每隔Q min的时间区间的平均客流,所述同种类型日期是指相同的工作日或相同的节假日;
[0045]对所述m条平均客流按照客流特性分成h个时间段,计算每个时间段的发车间隔Δt
i
,i∈{1,2,

,h}
[0046][0047][0048]根据所述发车间隔,即可得到发车时刻表。
[0049]第二方面,提供了一种基于深度强化学习的公交排班模型的设计装置,该装置具体包括设计模块、训练模块
[0050]所述设计模块,用于执行所有可能的实现方法中任一项所述一种基于深度强化学习的公交排班模型的设计方法的步骤1的步骤;
[0051]所述训练模块,用于执行所有可能的实现方法中任一项所述一种基于深度强化学习的公交排班模型的设计方法的步骤2的步骤。
[0052]优选的,该装置还包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的公交排班模型的设计方法,其特征在于,包括如下步骤:步骤1,根据发车时刻表,生成三个矩阵:规则矩阵X、排班矩阵Y、可选位置矩阵Z;建立马尔可夫决策过程;所述规则矩阵X∈{0,1}
N
×
N
,规则矩阵的元素X
i,j
含义如下所述规则矩阵可以根据时刻表生成,所述班次i、j表示编号i、编号j对应的班次,所述发车时刻表中一共有N个班次,对时刻表中每一个班次按照时间顺序编号:1,2,

,N;所述排班矩阵Y∈{0,1}
N
×
N
,元素Y
i,j
含义如下排班矩阵初始化元素全为0,后续根据每一步策略来改变其中的值;可选位置矩阵Z∈{0,1}
N
×
N
,矩阵的元素Z
i,j
的含义如下可选位置矩阵初始化Z=X,后续根据执行策略来改变其中的值;所述马尔可夫决策过程为:马尔可夫决策过程由(S,A,R,π,G)构成,其中S表示状态空间,A表示动作空间,π
θ
表示策略,θ为策略的参数;用π
θ
(a|s)表示在策略π
θ
和状态s下动作a的概率分布,R表示回报奖励函数,G表示随时间累计的回报奖励;根据排班的任务定义马尔可夫决策过程:策略π
θ
具体为:策略神经网络状态s:(X,Y,Z)∈S动作a:(i,j)∈A,动作a的执行过程为:在Y
i,j
处填1,并将Z的第i行和第j列全部置为0回报奖励R(s,a):所述Score(Y)为评分函数,所述Score(Y)为评分函数,表示实数域,所述评分函数用于评估排班结果的好坏;步骤2,对排班策略神经网络进行训练:获取初始化状态s0,所述初始化状态s0为规则矩阵、排班矩阵、可选位置矩阵三个矩阵的初始值;计算状态s
t
对应动作的概率分布π
θ
(a|s
t
):策略神经网络的输入是状态s
t
即三个矩阵的N
×
N
×
3的张量,网络的输出为N2维的向量,表示在排班矩阵中选中的位置,其中t表示执行的第t次操作;根据概率分布随机选取动作a
t
;执行动作a
t
后得到状态s
t+1

计算回报奖励r
t
=R(s
t
,a
t
);执行完a
t
后得到s
t+1
,如果状态动作a
t
对应的Z
i,j
为0,则退出;如果执行完a<...

【专利技术属性】
技术研发人员:王乾宇周金明赵丽
申请(专利权)人:南京行者易智能交通科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1