一种列车自主调度深度强化学习方法和模块技术

技术编号:24758646 阅读:54 留言:0更新日期:2020-07-04 09:43
本发明专利技术提出一种列车自主调度深度强化学习方法和模块,基于轨道交通数据,以列车运行状态S、列车动作A、根据列车运行状态S和列车动作A组成的回报R(S,A)、采取动作后达到的后续状态S´建立N个单列列车四元组(S,A,R,S´),选择n个四元组(S,A,R,S´),计算梯度值,利用梯度值更新值函数神经网络参数,判断值函数神经网络参数是否达到预定条件,若值函数神经网络参数达到预定条件,停止更新值函数神经网络参数,若值函数神经网络参数未达到预定条件,重新选择n个四元组(S,A,R,S´),继续更新值函数神经网络参数,得到训练好的值函数神经网络,训练好的值函数神经网络可用于列车调度。

A deep reinforcement learning method and module for autonomous train dispatching

【技术实现步骤摘要】
一种列车自主调度深度强化学习方法和模块
本专利技术属于轨道交通领域,特别涉及一种列车自主调度深度强化学习方法和模块。
技术介绍
既有运输组织模式下,运输计划通常是基于阶段的客流需求预测进行编制。在短时间内,由于实时客流需求的波动,运输供给和运输需求存在一定不匹配关系,从而导致运输系统服务水平降低。同时,由于列车在运行过程中受到各种外部因素的影响,列车运行逐渐偏离运行时刻表和既定节能操纵曲线,列车运行的准点性和节能性难以保证。因此,针对实际运行情况进行列车运行调度是解决这一问题的重要手段。既有的关于列车运行调度的研究主要为集中式调度。集中式调度方法通过建立列车调度的优化模型并进行求解,从而生成列车运行调度方案。然而,在列车运行过程中,需要考虑的周边环境和运输需求异常复杂且呈现较强的动态时变特性,而集中式调度方法往往难以适应实时性和灵活性要求较高的应用场景。在轨道交通系统调度任务的非线性和实时性要求下,其不仅存在求解时间过长的问题,在动态调度场景下其灵活性也受到制约。
技术实现思路
针对上述问题,本专利技术提出一种列车自主调度深度强化学习方法,基于轨道交通数据,以列车运行状态S、列车动作A、根据列车运行状态S和列车动作A组成的回报R(S,A)、采取动作后达到的后续状态S´建立N个单列列车四元组(S,A,R,S´);选择n个四元组(S,A,R,S´),计算所述n个四元组(S,A,R,S´)的梯度值,利用梯度值更新值函数神经网络参数;判断值函数神经网络参数是否达到预定条件,若值函数神经网络参数达到预定条件,停止更新值函数神经网络参数,若值函数神经网络参数未达到预定条件,重新选择n个四元组(S,A,R,S´),继续更新值函数神经网络参数。优选地,所述列车运行状态S在t时刻具体包括:Lt为列车在t时刻与其前车间的间隔时间,Pst为列车根据时刻表到达前方所有车站时,在t时刻所预测的这些车站的单位时间产生的候车客流量向量,Ptt为列车在t时刻的实时载客量,Tt为列车从出发开始到达目前为止的运行时间,lt为列车t时刻所在线路,yt为列车在所在线路上的里程位置,vt为列车在t时刻的运行速度,zt为列车在t时刻的加速度,σt为列车在t时刻是否在车站停靠(0表示未停靠,1表示停靠)。优选地,基于ε-greedy策略生成列车动作A,具体包括以下步骤:初始化列车运行状态;确定ε数值;产生一个区间[0,1]之内的随机数;若该随机数小于ε,则从所有可能的动作中随机选择一个动作;若该随机数大于等于ε,则将当前列车运行状态S输入值函数神经网络,选择值函数最大的动作,作为当前采取的动作A。优选地,基于旅客等待时间成本、列车采用动作At的能耗成本、列车在状态St下的安全间隔超限成本和列车在状态St下的准点超限成本获取t时刻回报R(St,At)。优选地,基于单位旅客候车时间成本、列车与前车实时间隔时间、列车位于运行线路第几个车站、候车客流量获取旅客等待时间成本。优选地,基于列车t时刻牵引功率、决策过程离散时间长度、单位能耗成本、工况转换固定成本获取列车采用动作At的能耗成本。优选地,基于列车间隔时间超限的单位经济成本系数、列车在t时刻与其前车间的间隔时间和列车之间的最小安全间隔时间获取安全间隔超限成本。优选地,基于目前为止的总运行时间、列车到达当前位置允许的最短时间、列车到达当前位置允许的最长时间和列车不准点的单位经济成本系数获取准点超限成本。优选地,存储建立后的N个单列列车四元组(S,A,R,S´)。优选地,随机选择n个四元组(S,A,R,S´),计算所述n个四元组(S,A,R,S´)的梯度值,利用梯度值更新值函数神经网络参数。优选地,所述选择n个四元组(S,A,R,S´),计算所述n个四元组(S,A,R,S´)的梯度值,利用梯度值更新值函数神经网络参数具体包括:将列车状态S输入目标值函数神经网络Q-,计算时间差分目标:γ为回报函数的折扣系数,Q表示当前值函数神经网络,θ为当前值函数神经网络参数,θ-为目标值函数神经网络参数,计算损失函数:利用第i个四元组更新参数θ:优选地,基于优先经验回放机制选择n个四元组(S,A,R,S´),则其中,η为梯度下降步长,ωi为重要性采样系数,P(i)为采样概率u为防止除零而添加的参数。优选地,建立N个单列列车四元组(S,A,R,S´)后,对N个单列列车四元组(S,A,R,S´)进行规则化处理。本专利技术还一种列车自主调度深度强化学习模块,包括:学习型智能体,用于探索基于轨道交通数据,以列车运行状态S、列车动作A、根据状态和动作组成的回报R(S,A)、采取动作后达到的后续状态S´建立的N个单列列车四元组(S,A,R,S´);用于判断值函数神经网络参数是否达到预定条件,若值函数神经网络参数达到预定条件,停止更新值函数神经网络参数,若值函数神经网络参数未达到预定条件,继续更新值函数神经网络参数;深度神经网络,用于选择n个四元组(S,A,R,S´),计算所述n个四元组(S,A,R,S´)的梯度值,利用梯度值更新值函数神经网络参数;回报函数单元,用于计算回报R(S,A)。优选地,还包括:数据规则化处理单元,用于对四元组(S,A,R,S´)进行规则化处理;缓存回放记忆器,用于存储经规则化处理后的四元组(S,A,R,S´);数据传输单元,用于建立深度强化学习模块内部实时通信。本专利技术的列车自主调度深度强化学习方法和模块,利用轨道交通数据构成的四元组对值函数神经网络进行训练,得到训练好的值函数神经网络,训练好的值函数神经网络可用于列车调度,输入当前列车运行状态至值函数神经网络,即可得到列车当前最优动作,从而提高调度的实时性和灵活性。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了列车自主调度原理示意图;图2示出了深度强化学习模块与仿真模块交互示意图;图3示出了列车自主调度原理示意图;图4示出了枢纽/车站仿真内容关系图;图5示出了线网运输过程仿真内容关系图;图6示出了基于OD-SpaseSTnet的旅客等待时间成本计算示意本文档来自技高网...

【技术保护点】
1.一种列车自主调度深度强化学习方法,其特征在于,/n基于轨道交通数据,以列车运行状态S、列车动作A、根据列车运行状态S和列车动作A组成的回报R(S,A)、采取动作后达到的后续状态S´建立N个单列列车四元组(S,A,R,S´);/n选择n个四元组(S,A,R,S´),计算所述n个四元组(S,A,R,S´)的梯度值,利用梯度值更新值函数神经网络参数;/n判断值函数神经网络参数是否达到预定条件,若值函数神经网络参数达到预定条件,停止更新值函数神经网络参数,若值函数神经网络参数未达到预定条件,重新选择n个四元组(S,A,R,S´),继续更新值函数神经网络参数。/n

【技术特征摘要】
1.一种列车自主调度深度强化学习方法,其特征在于,
基于轨道交通数据,以列车运行状态S、列车动作A、根据列车运行状态S和列车动作A组成的回报R(S,A)、采取动作后达到的后续状态S´建立N个单列列车四元组(S,A,R,S´);
选择n个四元组(S,A,R,S´),计算所述n个四元组(S,A,R,S´)的梯度值,利用梯度值更新值函数神经网络参数;
判断值函数神经网络参数是否达到预定条件,若值函数神经网络参数达到预定条件,停止更新值函数神经网络参数,若值函数神经网络参数未达到预定条件,重新选择n个四元组(S,A,R,S´),继续更新值函数神经网络参数。


2.根据权利要求1所述的列车自主调度深度强化学习方法,其特征在于,所述列车运行状态S在t时刻具体包括:



Lt为列车在t时刻与其前车间的间隔时间,
Pst为列车根据时刻表到达前方所有车站时,在t时刻所预测的这些车站的单位时间产生的候车客流量向量,
Ptt为列车在t时刻的实时载客量,
Tt为列车从出发开始到达目前为止的运行时间,
lt为列车t时刻所在线路,
yt为列车在所在线路上的里程位置,
vt为列车在t时刻的运行速度,
zt为列车在t时刻的加速度,
σt为列车在t时刻是否在车站停靠。


3.根据权利要求1所述的列车自主调度深度强化学习方法,其特征在于,基于ε-greedy策略生成列车动作A,具体包括以下步骤:
初始化列车运行状态;
确定ε数值;
产生一个区间[0,1]之内的随机数;
若该随机数小于ε,则从所有可能的动作中随机选择一个动作;
若该随机数大于等于ε,则将当前列车运行状态S输入值函数神经网络,选择值函数最
大的动作,作为当前采取的动作A。


4.根据权利要求1-3中任一项所述的列车自主调度深度强化学习方法,其特征在于,基于旅客等待时间成本、列车采用动作At的能耗成本、列车在状态St下的安全间隔超限成本和列车在状态St下的准点超限成本获取t时刻回报R(St,At)。


5.根据权利要求4所述的列车自主调度深度强化学习方法,其特征在于,基于单位旅客候车时间成本、列车与前车实时间隔时间、列车位于运行线路第几个车站、候车客流量获取旅客等待时间成本。


6.根据权利要求4所述的列车自主调度深度强化学习方法,其特征在于,基于列车t时刻牵引功率、决策过程离散时间长度、单位能耗成本、工况转换固定成本获取列车采用动作At的能耗成本。


7.根据权利要求4所述的列车自主调度深度强化学习方法,其特征在于,基于列车间隔时间超限的单位经济成本系数、列车在t时刻与其前车间的间隔时间和列车之间的最小安全间隔时间获取安全间隔超限成本。


8.根据权利要求4所述的列车自主调度深度强化学习方法,其特征在于,基于目前为止的总运行时间、...

【专利技术属性】
技术研发人员:韦伟刘岭张杰李擎王舟帆
申请(专利权)人:北京全路通信信号研究设计院集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1