当前位置: 首页 > 专利查询>北京全路通信信号研究设计院集团有限公司专利>正文

一种列车自主调度深度强化学习方法和模块技术

技术编号：24758646 阅读：54 留言：0更新日期：2020-07-04 09:43

本发明专利技术提出一种列车自主调度深度强化学习方法和模块，基于轨道交通数据，以列车运行状态S、列车动作A、根据列车运行状态S和列车动作A组成的回报R（S，A）、采取动作后达到的后续状态S´建立N个单列列车四元组（S，A，R，S´），选择n个四元组（S，A，R，S´），计算梯度值，利用梯度值更新值函数神经网络参数，判断值函数神经网络参数是否达到预定条件，若值函数神经网络参数达到预定条件，停止更新值函数神经网络参数，若值函数神经网络参数未达到预定条件，重新选择n个四元组（S，A，R，S´），继续更新值函数神经网络参数，得到训练好的值函数神经网络，训练好的值函数神经网络可用于列车调度。

A deep reinforcement learning method and module for autonomous train dispatching

全部详细技术资料下载

【技术实现步骤摘要】
一种列车自主调度深度强化学习方法和模块
本专利技术属于轨道交通领域，特别涉及一种列车自主调度深度强化学习方法和模块。
技术介绍
既有运输组织模式下，运输计划通常是基于阶段的客流需求预测进行编制。在短时间内，由于实时客流需求的波动，运输供给和运输需求存在一定不匹配关系，从而导致运输系统服务水平降低。同时，由于列车在运行过程中受到各种外部因素的影响，列车运行逐渐偏离运行时刻表和既定节能操纵曲线，列车运行的准点性和节能性难以保证。因此，针对实际运行情况进行列车运行调度是解决这一问题的重要手段。既有的关于列车运行调度的研究主要为集中式调度。集中式调度方法通过建立列车调度的优化模型并进行求解，从而生成列车运行调度方案。然而，在列车运行过程中，需要考虑的周边环境和运输需求异常复杂且呈现较强的动态时变特性，而集中式调度方法往往难以适应实时性和灵活性要求较高的应用场景。在轨道交通系统调度任务的非线性和实时性要求下，其不仅存在求解时间过长的问题，在动态调度场景下其灵活性也受到制约。
技术实现思路
针对上述问题，本专利技术提出一种列车自主调度深度强化学习方法，基于轨道交通数据，以列车运行状态S、列车动作A、根据列车运行状态S和列车动作A组成的回报R（S，A）、采取动作后达到的后续状态S´建立N个单列列车四元组（S，A，R，S´）；选择n个四元组（S，A，R，S´），计算所述n个四元组（S，A，R，S´）的梯度值，利用梯度值更新值函数神经网络参数；判断值函数神经网络参数是否达到预定条件，若值函数...

【技术保护点】
1.一种列车自主调度深度强化学习方法，其特征在于，/n基于轨道交通数据，以列车运行状态S、列车动作A、根据列车运行状态S和列车动作A组成的回报R（S，A）、采取动作后达到的后续状态S´建立N个单列列车四元组（S，A，R，S´）；/n选择n个四元组（S，A，R，S´），计算所述n个四元组（S，A，R，S´）的梯度值，利用梯度值更新值函数神经网络参数；/n判断值函数神经网络参数是否达到预定条件，若值函数神经网络参数达到预定条件，停止更新值函数神经网络参数，若值函数神经网络参数未达到预定条件，重新选择n个四元组（S，A，R，S´），继续更新值函数神经网络参数。/n

【技术特征摘要】
1.一种列车自主调度深度强化学习方法，其特征在于，
基于轨道交通数据，以列车运行状态S、列车动作A、根据列车运行状态S和列车动作A组成的回报R（S，A）、采取动作后达到的后续状态S´建立N个单列列车四元组（S，A，R，S´）；
选择n个四元组（S，A，R，S´），计算所述n个四元组（S，A，R，S´）的梯度值，利用梯度值更新值函数神经网络参数；
判断值函数神经网络参数是否达到预定条件，若值函数神经网络参数达到预定条件，停止更新值函数神经网络参数，若值函数神经网络参数未达到预定条件，重新选择n个四元组（S，A，R，S´），继续更新值函数神经网络参数。

2.根据权利要求1所述的列车自主调度深度强化学习方法，其特征在于，所述列车运行状态S在t时刻具体包括：

Lt为列车在t时刻与其前车间的间隔时间，
Pst为列车根据时刻表到达前方所有车站时，在t时刻所预测的这些车站的单位时间产生的候车客流量向量，
Ptt为列车在t时刻的实时载客量，
Tt为列车从出发开始到达目前为止的运行时间，
lt为列车t时刻所在线路，
yt为列车在所在线路上的里程位置，
vt为列车在t时刻的运行速度，
zt为列车在t时刻的加速度，
σt为列车在t时刻是否在车站停靠。

3.根据权利要求1所述的列车自主调度深度强化学习方法，其特征在于，基于ε-greedy策略生成列车动作A，具体包括以下步骤：
初始化列车运行状态；
确定ε数值；
产生一个区间[0，1]之内的随机数；
若该随机数小于ε，则从所有可能的动作中随机选择一个动作；
若该随机数大于等于ε，则将当前列车运行状态S输入值函数神经网络，选择值函数最
大的动作，作为当前采取的动作A。

4.根据权利要求1-3中任一项所述的列车自主调度深度强化学习方法，其特征在于，基于旅客等待时间成本、列车采用动作At的能耗成本、列车在状态St下的安全间隔超限成本和列车在状态St下的准点超限成本获取t时刻回报R（St，At）。

5.根据权利要求4所述的列车自主调度深度强化学习方法，其特征在于，基于单位旅客候车时间成本、列车与前车实时间隔时间、列车位于运行线路第几个车站、候车客流量获取旅客等待时间成本。

6.根据权利要求4所述的列车自主调度深度强化学习方法，其特征在于，基于列车t时刻牵引功率、决策过程离散时间长度、单位能耗成本、工况转换固定成本获取列车采用动作At的能耗成本。

7.根据权利要求4所述的列车自主调度深度强化学习方法，其特征在于，基于列车间隔时间超限的单位经济成本系数、列车在t时刻与其前车间的间隔时间和列车之间的最小安全间隔时间获取安全间隔超限成本。

8.根据权利要求4所述的列车自主调度深度强化学习方法，其特征在于，基于目前为止的总运行时间、...

【专利技术属性】
技术研发人员：韦伟，刘岭，张杰，李擎，王舟帆，
申请(专利权)人：北京全路通信信号研究设计院集团有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人