一种基于强化学习的自适应轨道交通调度方法、系统、终端技术方案

技术编号：32509950 阅读：27 留言：0更新日期：2022-03-02 10:52

本发明专利技术属于交通调度技术领域，公开了一种基于强化学习的自适应轨道交通调度方法、系统、终端，基于常发性客流量与偶发性客流量的环境建模方法建立适用于强化学习的轨道列车调度的马尔可夫决策模型；确定从环境中提取特征的轨道交通调度方案，进行轨道交通调度。本发明专利技术提供了一个基于强化学习的自适应轨道交通调度方法，可以根据乘客数目来调度轨道交通车辆，使得有关公司在保证乘客满意度的同时，保证收益最大化。本发明专利技术的基于深度强化学习方法的列车调度方案有着自适应客流量的优点，在保证载客率的同时，使得运营成本与顾客等待时间更低。间更低。间更低。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的自适应轨道交通调度方法、系统、终端

[0001]本专利技术属于交通调度
，尤其涉及一种基于强化学习的自适应轨道交通调度方法、系统、终端。

技术介绍

[0002]目前，轨道交通因路线稳定、没有拥堵烦恼等优点一直是备受欢迎的出行方式。目前轨道交通所采用的调度方式是固定配时，即在高峰期车辆间隔较短，在平峰期车辆间隔稍长一些，这种调度方案看似是一种较为合理的方案，但是存在以下缺点：(1)但是可能会产生一些突发事件打破这种规律，使得乘客等待时间较长进而发生拥挤踩踏事件。(2)由于一些大型事件的结束或者其他原因导致乘客急剧减少，这样会产生能源的浪费，进而损害交通公司的利益。所以轨道交通能够平稳运行的基础上拥有一套高效率、低误差的调度管理方案是很有必要的。同样的，高峰期还分为常发性高峰和偶发性高峰，面对不同高峰带来的客流量也需要一个相应的自适应策略来匹配。
[0003]通过上述分析，现有技术存在的问题及缺陷为：调度方案不合理进而导致方法效率不高，且误差大。
[0004]解决以上问题及缺陷的难度为：由...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的自适应轨道交通调度方法，其特征在于，所述基于强化学习的自适应轨道交通调度方法包括：步骤一，建立适用于强化学习的轨道列车调度的马尔可夫决策模型；步骤二，结合基于值函数的深度强化学习方法，进行特征提取，确定从环境中提取特征的轨道交通调度方案，进行轨道交通调度。2.如权利要求1所述基于强化学习的自适应轨道交通调度方法，其特征在于，所述建立适用于强化学习的轨道列车调度的马尔可夫决策模型包括：基于常发性客流量与偶发性客流量的环境建模方法建立适用于强化学习的轨道列车调度的马尔可夫决策模型。3.如权利要求2所述基于强化学习的自适应轨道交通调度方法，其特征在于，所述基于常发性客流量与偶发性客流量的环境建模方法，建立适用于强化学习的轨道列车调度的马尔可夫决策模型包括：建立轨道列车与待乘乘客之间的环境模型，并基于建立的轨道列车与待乘乘客之间的环境模型建立MDP模型；通过分析常发性客流量和偶发性客流量的特点，基于分析结果细化所述环境模型，得到适用于强化学习的轨道列车调度的马尔可夫决策模型。4.如权利要求1所述基于强化学习的自适应轨道交通调度方法，其特征在于，所述确定从环境中提取特征的轨道交通调度方案包括：利用Double DQN算法获得轨道交通调度方案。5.如权利要求1所述基于强化学习的自适应轨道交通调度方法，其特征在...

【专利技术属性】
技术研发人员：黄黛麟，马佳林，侯亮，陈作汉，曹洁，
申请(专利权)人：兰州理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人