调度策略调整方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35343108 阅读:13 留言:0更新日期:2022-10-26 12:07
本发明专利技术提供一种调度策略调整方法、装置、电子设备及存储介质,包括:基于延误信息,确定当前列车运行图;基于策略调整模型,对当前列车运行图进行迭代策略调整,得到调整策略;在迭代策略调整过程中,应用决策数据,以总延误时间最少为目标,对策略调整模型进行参数迭代;决策数据是将仿真事件输入到策略调整模型中进行决策得到的;仿真事件是基于当前列车运行图仿真运行时触发得到,仿真事件包括进站事件和出站事件;基于调整策略,确定最优调整策略,并基于最优调整策略,对实际调度策略进行调整。本发明专利技术提供的方法,实现了从总延误时间最少为目标的全局最优的角度获取调整策略,进而在出现延误的情况下提高高铁通行能力和运营效率。营效率。营效率。

【技术实现步骤摘要】
调度策略调整方法、装置、电子设备及存储介质


[0001]本专利技术涉及高铁
,尤其涉及一种调度策略调整方法、装置、电子设备及存储介质。

技术介绍

[0002]高铁铁路线路一般都具有区域跨度大以及运营里程长等特点,因此经常会有自然或人为因素引起的突发事件对列车运行产生影响,如:引起列车晚点或中断列车服务进程,进而影响了高铁的运输能力和列车的运行效率。
[0003]目前,列车的运行调整模式大多采用人工调度,这种调度模式需要依赖调度员的个人职业素质,依赖人工经验,并且由于列车具有行车密集、发车间隔短等特点,导致调度问题十分复杂,人工调度无法保证调整策略是全局最优,并且存在一定的安全隐患,进而现有的调度调整策略无法有效解决延误情况下的高铁列车时刻表调整问题,无法有效提升高速铁路运营效率。

技术实现思路

[0004]本专利技术提供一种调度策略调整方法、装置、电子设备及存储介质,用以解决现有技术中无法从总延误时间最少为目标的全局最优的角度获取调整策略导致在出现延误的情况下通行能力和运营效率低的缺陷。
[0005]本专利技术提供一种调度策略调整方法,包括:
[0006]基于延误信息,确定当前列车运行图;
[0007]基于策略调整模型,对所述当前列车运行图进行迭代策略调整,得到调整策略;在所述迭代策略调整过程中,应用决策数据,以总延误时间最少为目标,对所述策略调整模型进行参数迭代;所述决策数据是将仿真事件输入到所述策略调整模型中进行决策得到的;所述仿真事件是基于所述当前列车运行图仿真运行时触发得到,所述仿真事件包括进站事件和出站事件;
[0008]基于所述调整策略,确定最优调整策略,并基于所述最优调整策略,对实际调度策略进行调整。
[0009]根据本专利技术提供的一种调度策略调整方法,所述基于策略调整模型,对所述当前列车运行图进行迭代策略调整,得到调整策略;在所述迭代策略调整过程中,应用决策数据,以总延误时间最少为目标,对所述策略调整模型进行参数迭代;所述决策数据是将仿真事件输入到所述策略调整模型中进行决策得到的;所述仿真事件是基于所述当前列车运行图仿真运行时触发得到,所述仿真事件包括进站事件和出站事件,包括:
[0010]在当前轮策略调整中,基于所述当前列车运行图,确定待调整列车运行图;
[0011]基于预设时间步长和所述待调整运行图中的各列车在各站的进出站的时间,依时序触发各仿真事件;
[0012]将当前触发的仿真事件输入至所述策略调整模型中进行决策,得到所述策略调整
模型输出的所述仿真事件对应的决策数据,并应用所述决策数据,对所述策略调整模型进行参数迭代;
[0013]若所述决策数据中的决策动作为前进并且符合安全约束条件,或者所述决策动作为等待,则基于所述决策动作对所述待调整运行图进行调整,并将下一次触发的仿真事件作为当前触发的仿真事件进行事件决策迭代,直至所述待调整运行图中所有列车均到达终点后,结束仿真并将所述待调整运行图作为所述调整方案之一;否则结束仿真;
[0014]在仿真结束后,将下一轮策略调整作为当前轮策略调整进行策略调整迭代,直至策略调整迭代轮数达到预设迭代数量后,得到所述调整策略。
[0015]根据本专利技术提供的一种调度策略调整方法,所述基于所述策略调整模型,对所述仿真事件对应的列车状态进行决策,得到所述仿真事件对应的决策数据,包括:
[0016]基于所述策略调整模型,应用所述仿真事件,确定所述仿真事件对应的列车状态,并对所述列车状态进行决策,得到所述仿真事件对应决策动作;
[0017]基于所述决策动作和/或所述安全约束条件,确定所述决策动作对应的奖励值;
[0018]将由所述列车状态、所述决策动作和所述奖励值构建的三元组作为所述仿真事件对应的决策数据。
[0019]根据本专利技术提供的一种调度策略调整方法,所述应用所述决策数据,对所述策略调整模型进行参数迭代,包括:
[0020]将所述决策数据作为样本决策数据存入经验池中,当所述经验池中样本决策数据的数量达到预设数量时,应用所述经验池中的样本决策数据,对所述策略调整模型中新策略网络和评估网络进行参数更新,并将所述经验池清空,并等待下一次经验池中样本决策数据的数量达到预设数量时,对所述策略调整模型中新策略网络和评估网络进行下一次参数更新。
[0021]根据本专利技术提供的一种调度策略调整方法,所述应用所述经验池中的样本决策数据,对所述策略调整模型中新策略网络和评估网络进行参数更新,包括:
[0022]基于所述策略调整模型中新策略网络的当前参数,确定所述策略调整网络中旧调整网络的更新参数;
[0023]基于所述策略调整网络中旧调整网络的更新参数、所述策略调整模型中评估网络的当前参数和所述样本决策数据,应用目标函数,以总延误时间最少为目标,确定所述策略调整模型中新策略网络的更新参数;
[0024]基于所述样本决策数据,以累计奖励值和所述评估网络输出的累计预测奖励值误差最小为目标,更新所述评估网络的参数。
[0025]根据本专利技术提供的一种调度策略调整方法,所述基于延误信息,确定当前列车运行图,包括:
[0026]确定列车计划运行图;所述列车计划运行图是基于实际列车计划运行策略确定的;所述列车计划运行图用于记录各列车在各站的计划进站时间和计划出站时间;
[0027]基于所述列车计划运行图和延误信息,确定所述当前列车运行图;所述当前列车运行图包括所述列车计划运行图以及各列车在各站的实际进站时间和实际出站时间。
[0028]根据本专利技术提供的一种调度策略调整方法,所述基于所述调整策略,确定最优调整策略,包括:
[0029]确定所述调整策略中各策略的总到发延误时间;
[0030]基于所述调整策略中各策略的总到发延误时间,选择总到发延误时间最小的策略作为所述最优调整策略。
[0031]本专利技术还提供一种调度策略调整装置,包括:
[0032]运行时刻模块,用于基于延误信息,确定当前列车运行图;
[0033]调整策略模块,用于基于策略调整模型,对所述当前列车运行图进行迭代策略调整,得到调整策略;在所述迭代策略调整过程中,应用决策数据,以总延误时间最少为目标,对所述策略调整模型进行参数迭代;所述决策数据是将仿真事件输入到所述策略调整模型中进行决策得到的;所述仿真事件是基于所述当前列车运行图仿真运行时触发得到,所述仿真事件包括进站事件和出站事件;
[0034]实际调度模块,用于基于所述调整策略,确定最优调整策略,并基于所述最优调整策略,对实际调度策略进行调整。
[0035]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述调度策略调整方法。
[0036]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述调度策略调整方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种调度策略调整方法,其特征在于,包括:基于延误信息,确定当前列车运行图;基于策略调整模型,对所述当前列车运行图进行迭代策略调整,得到调整策略;在所述迭代策略调整过程中,应用决策数据,以总延误时间最少为目标,对所述策略调整模型进行参数迭代;所述决策数据是将仿真事件输入到所述策略调整模型中进行决策得到的;所述仿真事件是基于所述当前列车运行图仿真运行时触发得到,所述仿真事件包括进站事件和出站事件;基于所述调整策略,确定最优调整策略,并基于所述最优调整策略,对实际调度策略进行调整。2.根据权利要求1所述的调度策略调整方法,其特征在于,所述基于策略调整模型,对所述当前列车运行图进行迭代策略调整,得到调整策略;在所述迭代策略调整过程中,应用决策数据,以总延误时间最少为目标,对所述策略调整模型进行参数迭代;所述决策数据是将仿真事件输入到所述策略调整模型中进行决策得到的;所述仿真事件是基于所述当前列车运行图仿真运行时触发得到,所述仿真事件包括进站事件和出站事件,包括:在当前轮策略调整中,基于所述当前列车运行图,确定待调整列车运行图;基于预设时间步长和所述待调整运行图中的各列车在各站的进出站的时间,依时序触发各仿真事件;将当前触发的仿真事件输入至所述策略调整模型中进行决策,得到所述策略调整模型输出的所述仿真事件对应的决策数据,并应用所述决策数据,对所述策略调整模型进行参数迭代;若所述决策数据中的决策动作为前进并且符合安全约束条件,或者所述决策动作为等待,则基于所述决策数据对所述待调整运行图进行调整,并将下一次触发的仿真事件作为当前触发的仿真事件进行事件决策迭代,直至所述待调整运行图中所有列车均到达终点后,结束仿真并将所述待调整运行图作为所述调整方案之一;否则结束仿真;在仿真结束后,将下一轮策略调整作为当前轮策略调整进行策略调整迭代,直至策略调整迭代轮数达到预设迭代数量后,得到所述调整策略。3.根据权利要求2所述的调度策略调整方法,其特征在于,所述基于所述策略调整模型,对所述仿真事件对应的列车状态进行决策,得到所述仿真事件对应的决策数据,包括:基于所述策略调整模型,应用所述仿真事件,确定所述仿真事件对应的列车状态,并对所述列车状态进行决策,得到所述仿真事件对应决策动作;基于所述决策动作和/或所述安全约束条件,确定所述决策动作对应的奖励值;将由所述列车状态、所述决策动作和所述奖励值构建的三元组作为所述仿真事件对应的决策数据。4.根据权利要求2或3所述的调度策略调整方法,其特征在于,所述应用所述决策数据,对所述策略调整模型进行参数迭代,包括:将所述决策数据作为样本决策数据存入经验池中,当所述经验池中样本决策数据的数量达到预设数量时,应用所述经...

【专利技术属性】
技术研发人员:王飞跃吕宜生王晓王银
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1