一种高速铁路轨道平顺性多任务协调维护方法技术

技术编号：40415775 阅读：4 留言：0更新日期：2024-02-20 22:32

本发明专利技术涉及铁路轨道平顺性维护技术领域，提供一种高速铁路轨道平顺性多任务协调维护方法，其包括以下步骤：1）初始化轨道状态；2）定义自然恶化、大机捣固和轨道精调动作的状态转移概率矩阵；3）初始化轨道维护环境参数；4）初始化贝叶斯深度强化学习代理参数；5）维护环境与模型代理迭代交互和时间步求解。本发明专利技术能较佳地进行高速铁路轨道平顺性多任务协调维护。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及铁路轨道平顺性维护，具体地说，涉及一种高速铁路轨道平顺性多任务协调维护方法。

技术介绍

1、轨道不平顺是高速列车振动失稳和轨道结构性能下降的主要原因。消除轨道不平顺，保持轨道高平顺性是高速铁路网运维的核心。对于高速铁路有砟轨道来说，大机捣固和轨道精调是保持轨道高平顺性的两项关键措施，也是高速铁路与普速铁路的重要区别。大机捣固是一种重置轨道结构不平顺的维护方法，特别适用于控制轨道长波不平顺，但对中短波的控制效果具有随机性。相比之下，轨道精调是一种对扣件系统进行精细化调整的措施，可以精确控制中短波不平顺，但长波优化能力有限。在高铁建设阶段，这两种维护措施的特点没有得到充分利用，造成资源浪费和技术冗余。当维护资源有限时，智能维护的难点在于如何最大限度地发挥两种措施的优势，实现联合维护。

技术实现思路

1、本专利技术的内容是提供一种高速铁路轨道平顺性多任务协调维护方法，其能够解决现有轨道平顺性维护计划制定过程未考虑线路长期状态、无法高效协同多种维护措施的问题。

2、根据本专利技术的一种高速铁路轨道平顺性多任务协调维护方法，其包括以下步骤：

3、1）初始化轨道状态；

4、2）定义自然恶化、大机捣固和轨道精调的状态转移概率矩阵；

5、3）初始化轨道维护环境参数；

6、4）初始化贝叶斯深度强化学习代理参数；

7、5）维护环境与模型代理迭代交互和时间步求解。

8、作为优选，步骤1）中，以200m为基准

9、；

10、；

11、其中， i表示轨道维护单元索引， i=0 ,1 ,...,n-1；表示第 i个维护单元范围内第 j个采样点值；表示第 i个维护单元范围内所有采样点均值；和表示第 i个维护单元标准差和状态；表示所有维护单元 tqi最大值。

12、作为优选，步骤3）中，轨道维护环境参数包括轨道参数、动作更新函数、奖励计算函数、早停机制。

13、作为优选，动作更新函数根据输入的动作向量，计算选择执行后对应更新状态，具体如下：

14、；

15、其中， i表示轨道维护单元索引， i=0 ,1 ,...,n-1；表示第 i个维护单元执行动作后状态，、和分别表示第 i个维护单元执行自然恶化、大机捣固、轨道精调后状态。

16、作为优选，奖励计算函数根据输入的动作向量，计算选择执行后对应奖励，具体如下：

17、；

18、；

19、其中，表示所有维护单元执行维护操作后总奖励，由成本奖励，状态提升奖励，危险状态惩罚三部分组成；和分别表示大机捣固和轨道精调维护成本； i表示轨道维护单元索引， i=0 ,1 ,...,n-1；和表示第 i个维护单元执行维护前后状态；表示目标状态等级；表示超出状态等级惩罚值。

20、作为优选，早停机制具体如下：

21、；

22、其中， i表示轨道维护单元索引， i=0 ,1 ,...,n-1；表示第 i个维护单元状态；表示成本奖励；和分别表示维护环境与模型代理交互的继续和终止；表示目标状态等级；表示最大成本约束。

23、作为优选，步骤4）中，贝叶斯深度强化学习代理参数包括代理参数、深度贝叶斯多层感知网络、专家动作选择和专家经验池。

24、作为优选，深度贝叶斯多层感知网络用于根据当前状态判断动作价值q，选择动作，深度贝叶斯多层感知网络包括1层状态输入层、多层贝叶斯隐藏层和1层动作价值q输出层；其中，输入端为状态向量，隐藏层采用蒙特卡洛原理进行随机丢弃保证鲁棒性。

25、作为优选，专家动作选择包括模型动作选择和随机新动作选择；定义探索率函数，用于权衡模型动作选择与随机新动作选择概率；当随机数大于探索率时，按照当前模型优化参数进行动作价值q计算，每个维度选择动作价值q最大的动作；当随机数小于探索率时，从动作空间中进行随机动作选择，具体如下：

26、；

27、其中，为探索率，和分别表示初始设置的最大和最小探索率； s为探索步长；为探索折扣；（*）为函数，用于返回动作价值q对应的动作索引；为深度贝叶斯多层感知网络；表示从动作空间中随机选择一条维度相同的动作向量，为随机数，取值范围[0,1]。

28、作为优选，专家经验池用于存储过去选择q值的更新记录，包括：当前状态、当前动作、下一状态以及当前奖励。

29、本专利技术的有益效果如下：

30、通过分析历史检测数据，建立了定义轨道状态等级。考虑两种措施效果的异同，融合专家知识概念，通过奖励塑造和专家策略引导来加速特定行为的学习。最后，考虑状态转换和动作预测的不确定性，建立贝叶斯深度强化学习模型，以提高决策的鲁棒性。在维修资源固定的情况下，有效制定大机捣固和轨道精调两种维修任务联合作业计划，区别于传统针对单一维护规划仅能输出单一措施的应用区间，本方法可同时输出大机捣固和轨道精调两种维护措施的应用区间；同时，考虑维护效果的提升和随机性，能够以最小代价将整体状态降低至目标等级。

本文档来自技高网...

【技术保护点】

1.一种高速铁路轨道平顺性多任务协调维护方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种高速铁路轨道平顺性多任务协调维护方法，其特征在于：步骤1）中，以200m为基准将长度为L的线路划分为n个初始维护单元区段，基于当前线路平顺性状态，以TQI指标为基准，由低至高划定线路横垂向状态为4个等级，具体如下：

3.根据权利要求2所述的一种高速铁路轨道平顺性多任务协调维护方法，其特征在于：步骤3）中，轨道维护环境参数包括轨道参数、动作更新函数、奖励计算函数、早停机制。

4.根据权利要求3所述的一种高速铁路轨道平顺性多任务协调维护方法，其特征在于：动作更新函数根据输入的动作向量，计算选择执行后对应更新状态，具体如下：

5.根据权利要求4所述的一种高速铁路轨道平顺性多任务协调维护方法，其特征在于：奖励计算函数根据输入的动作向量，计算选择执行后对应奖励，具体如下：

6.根据权利要求5所述的一种高速铁路轨道平顺性多任务协调维护方法，其特征在于：早停机制具体如下：

7.根据权利要求6所述的一种高速铁路轨道平顺性多任

8.根据权利要求7所述的一种高速铁路轨道平顺性多任务协调维护方法，其特征在于：深度贝叶斯多层感知网络用于根据当前状态判断动作价值，选择动作，深度贝叶斯多层感知网络包括1层状态输入层、多层贝叶斯隐藏层和1层动作Q值输出层；其中，输入端为状态向量，隐藏层采用蒙特卡洛原理进行随机丢弃保证鲁棒性。

9.根据权利要求8所述的一种高速铁路轨道平顺性多任务协调维护方法，其特征在于：专家动作选择包括模型动作选择和随机新动作选择；定义探索率函数，用于权衡模型动作选择与随机新动作选择概率；当随机数大于探索率时，按照当前模型优化参数进行动作价值Q计算，每个维度选择动作价值Q最大的动作；当随机数小于探索率时，从动作空间中进行随机动作选择，具体如下:

10.根据权利要求9所述的一种高速铁路轨道平顺性多任务协调维护方法，其特征在于：专家经验池用于存储过去选择Q值的更新记录，包括：当前状态、当前动作、下一状态以及当前奖励。

...

【技术特征摘要】

1.一种高速铁路轨道平顺性多任务协调维护方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种高速铁路轨道平顺性多任务协调维护方法，其特征在于：步骤1）中，以200m为基准将长度为l的线路划分为n个初始维护单元区段，基于当前线路平顺性状态，以tqi指标为基准，由低至高划定线路横垂向状态为4个等级，具体如下：

6.根据权利要求5所述的一种高速铁路轨道平顺性多任务协调维护方法，其特征在于：早停机制具体如下：

7.根据权利要求6所述的一种高速铁路轨道...

【专利技术属性】
技术研发人员：何庆，孙华坤，李晨钟，徐淙洋，杨倩倩，吴国新，吕关仁，丁军君，张岷，余天乐，王平，刘宇恒，王庆晶，
申请(专利权)人：西南交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人