一种基于深度强化学习的公交排班模型的设计方法、装置及系统制造方法及图纸

技术编号：29008248 阅读：32 留言：0更新日期：2021-06-26 05:07

本发明专利技术公开了一种基于深度强化学习的公交排班模型的设计方法，该方法包括步骤1，将排班过程转化为马尔科夫决策过程，步骤2，对马尔科夫决策过程进行求解，步骤3，根据求解结果进行排班，通过使用深度强化学习方法对发车时刻表进行排班，建立排班数学模型，将相关的信息参数化，仅调整参数即可针对不同城市进行排班；提升了公交的运营效率，降低公交的运营成本。本。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的公交排班模型的设计方法、装置及系统

[0001]本专利技术涉及智能交通和深度学习研究领域，尤其是公交智能排班调度方面，具体涉及一种基于深度强化学习的公交排班模型的设计方法、装置及系统。

技术介绍

[0002]随着我国机动化水平的不断提高,城市基础设施建设发展迅速,城市面积不断扩张,城市的公交建设也越来越全面，然而随着公交规模的扩大，公交排班变得越来越困难，而智能排班方法在高效合理地给中起着至关重要的作用，它有助于更高效地利用公交资源、提供更高质量的公交服务。在实现本专利技术过程中，专利技术人发现现有技术中至少存在如下问题：我国传统的公交排班主要依靠人工排班，凭借排班人员的经验，因此效率低，并且无法保证排班的合理性；现有排班方法效率低下，且往往进行一次排班之后，要经过很长时间进行下一次排班，无法灵活应对不断变化的客流。

技术实现思路

[0003]为了克服现有技术的不足，本公开实施例提供了一种基于深度强化学习的公交排班模型的设计方法、装置及系统，大大提高了排班的效率，所述技术方案如下：
[0004]第一方面，提供了一种基于深度强化学习的公交排班模型的设计方法，所述方法包括：
[0005]步骤1，根据发车时刻表，生成三个矩阵：规则矩阵X、排班矩阵Y、可选位置矩阵Z；建立马尔可夫决策过程；
[0006]所述规则矩阵X∈{0,1}
N
×
N
，规则矩阵的元素X
i,j
含义如下
[0007][0008]所述规...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的公交排班模型的设计方法，其特征在于，包括如下步骤：步骤1，根据发车时刻表，生成三个矩阵：规则矩阵X、排班矩阵Y、可选位置矩阵Z；建立马尔可夫决策过程；所述规则矩阵X∈{0,1}
N
×
N
，规则矩阵的元素X
i,j
含义如下所述规则矩阵可以根据时刻表生成，所述班次i、j表示编号i、编号j对应的班次，所述发车时刻表中一共有N个班次，对时刻表中每一个班次按照时间顺序编号：1,2,
…
,N；所述排班矩阵Y∈{0,1}
N
×
N
，元素Y
i,j
含义如下排班矩阵初始化元素全为0，后续根据每一步策略来改变其中的值；可选位置矩阵Z∈{0,1}
N
×
N
，矩阵的元素Z
i,j
的含义如下可选位置矩阵初始化Z＝X，后续根据执行策略来改变其中的值；所述马尔可夫决策过程为：马尔可夫决策过程由(S,A,R,π,G)构成，其中S表示状态空间，A表示动作空间，π
θ
表示策略，θ为策略的参数；用π
θ
(a|s)表示在策略π
θ
和状态s下动作a的概率分布，R表示回报奖励函数，G表示随时间累计的回报奖励；根据排班的任务定义马尔可夫决策过程：策略π
θ
具体为：策略神经网络状态s：(X,Y,Z)∈S动作a：(i,j)∈A，动作a的执行过程为：在Y
i,j
处填1，并将Z的第i行和第j列全部置为0回报奖励R(s,a)：所述Score(Y)为评分函数，所述Score(Y)为评分函数，表示实数域，所述评分函数用于评估排班结果的好坏；步骤2，对排班策略神经网络进行训练：获取初始化状态s0，所述初始化状态s0为规则矩阵、排班矩阵、可选位置矩阵三个矩阵的初始值；计算状态s
t
对应动作的概率分布π
θ
(a|s
t
)：策略神经网络的输入是状态s
t
即三个矩阵的N
×
N
×
3的张量，网络的输出为N2维的向量，表示在排班矩阵中选中的位置，其中t表示执行的第t次操作；根据概率分布随机选取动作a
t
；执行动作a
t
后得到状态s
t+1
；
计算回报奖励r
t
＝R(s
t
,a
t
)；执行完a
t
后得到s
t+1
，如果状态动作a
t
对应的Z
i,j
为0，则退出；如果执行完a<...

【专利技术属性】
技术研发人员：王乾宇，周金明，赵丽，
申请(专利权)人：南京行者易智能交通科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人