【技术实现步骤摘要】
一种基于强化学习的自适应轨道交通调度方法、系统、终端
[0001]本专利技术属于交通调度
,尤其涉及一种基于强化学习的自适应轨道交通调度方法、系统、终端。
技术介绍
[0002]目前,轨道交通因路线稳定、没有拥堵烦恼等优点一直是备受欢迎的出行方式。目前轨道交通所采用的调度方式是固定配时,即在高峰期车辆间隔较短,在平峰期车辆间隔稍长一些,这种调度方案看似是一种较为合理的方案,但是存在以下缺点:(1)但是可能会产生一些突发事件打破这种规律,使得乘客等待时间较长进而发生拥挤踩踏事件。(2)由于一些大型事件的结束或者其他原因导致乘客急剧减少,这样会产生能源的浪费,进而损害交通公司的利益。所以轨道交通能够平稳运行的基础上拥有一套高效率、低误差的调度管理方案是很有必要的。同样的,高峰期还分为常发性高峰和偶发性高峰,面对不同高峰带来的客流量也需要一个相应的自适应策略来匹配。
[0003]通过上述分析,现有技术存在的问题及缺陷为:调度方案不合理进而导致方法效率不高,且误差大。
[0004]解决以上问题及缺陷的难度为:由 ...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习的自适应轨道交通调度方法,其特征在于,所述基于强化学习的自适应轨道交通调度方法包括:步骤一,建立适用于强化学习的轨道列车调度的马尔可夫决策模型;步骤二,结合基于值函数的深度强化学习方法,进行特征提取,确定从环境中提取特征的轨道交通调度方案,进行轨道交通调度。2.如权利要求1所述基于强化学习的自适应轨道交通调度方法,其特征在于,所述建立适用于强化学习的轨道列车调度的马尔可夫决策模型包括:基于常发性客流量与偶发性客流量的环境建模方法建立适用于强化学习的轨道列车调度的马尔可夫决策模型。3.如权利要求2所述基于强化学习的自适应轨道交通调度方法,其特征在于,所述基于常发性客流量与偶发性客流量的环境建模方法,建立适用于强化学习的轨道列车调度的马尔可夫决策模型包括:建立轨道列车与待乘乘客之间的环境模型,并基于建立的轨道列车与待乘乘客之间的环境模型建立MDP模型;通过分析常发性客流量和偶发性客流量的特点,基于分析结果细化所述环境模型,得到适用于强化学习的轨道列车调度的马尔可夫决策模型。4.如权利要求1所述基于强化学习的自适应轨道交通调度方法,其特征在于,所述确定从环境中提取特征的轨道交通调度方案包括:利用Double DQN算法获得轨道交通调度方案。5.如权利要求1所述基于强化学习的自适应轨道交通调度方法,其特征在...
【专利技术属性】
技术研发人员:黄黛麟,马佳林,侯亮,陈作汉,曹洁,
申请(专利权)人:兰州理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。