System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及轨道车辆控制,尤其涉及一种基于强化学习的列车运行控制方法、装置、设备及介质。
技术介绍
1、轨道车辆是一种重要的陆地交通工具,其运行控制,尤其是车辆的启停部分一直是研究的重点,列车在发生速度变化时,如何控制列车的运行参数是轨道车辆运行控制的关键问题。
2、传统的轨道车辆运行控制方法通常基于预设的列车运行性能模型,例如牵引制动曲线,控制轨道车辆运行,而预设的列车运行模型模型往往根据运行数据集拟合得到。
3、然而,现有技术中,运行数据集不能覆盖所有情况,存在数据缺失,从而在一些情况下致使运动控制失准;且随着列车的运行、零部件的磨损、轨道的变化等原因,导致轨道车辆运动模型参数会发生变化而与实际情况不符,有可能造成严重后果。
技术实现思路
1、本专利技术提供一种基于强化学习的列车运行控制方法、装置、设备及介质,用以解决现有技术中轨道车辆运动模型与实际情况不符的缺陷,实现高准确度的轨道车辆运行控制,提高轨道车辆运行的安全性与可靠性。
2、本专利技术提供一种基于强化学习的列车运行控制方法,包括以下步骤:
3、获取列车当前运行数据;
4、输入列车当前运行数据至列车运行性能模型,得到列车运行性能模型输出的列车控制参数;
5、根据列车控制参数,控制列车运行;
6、其中,所述列车运行性能模型是根据列车运行数据,使用强化学习方法求解列车运行模型得到的。
7、根据本专利技术提供的基于强化学习的列车
8、根据列车运行模型和列车运行数据,确定强化学习方法初始状态;
9、使用强化学习方法优化智能体策略,获取智能体最优策略;
10、根据智能体最优策略,获取列车运行性能模型。
11、根据本专利技术提供的基于强化学习的列车运行控制方法,所述根据列车运行模型和列车运行数据,确定强化学习方法初始状态,包括以下步骤:
12、根据列车运行模型,确定智能体的状态空间和动作空间;
13、根据列车运行数据、状态空间和动作空间,确定状态转移概率、回报函数、初始状态分布和折扣因子;
14、其中,所述状态空间的变量包括列车当前速度、列车当前加速度和列车周期走行距离;所述动作空间的变量包括列车加速度,和/或,列车减速度。
15、根据本专利技术提供的基于强化学习的列车运行控制方法,所述使用强化学习方法优化智能体策略,获取智能体最优策略,包括以下步骤:
16、根据智能体当前策略,获取智能体状态转移轨迹;
17、根据状态转移概率、回报函数、初始状态分布和折扣因子,确定智能体状态转移轨迹的回报奖励;
18、根据智能体的状态转移轨迹的回报奖励,优化智能体策略,获取智能体最优策略。
19、根据本专利技术提供的基于强化学习的列车运行控制方法,所述根据智能体最优策略,获取列车运行性能模型,包括以下步骤:
20、根据智能体最优策略,获得模拟列车运行性能数据,所述模拟列车运行性能数据包括输入数据和与输入数据对应的输出数据,所述输入数据包括列车当前速度、列车当前加速度和列车周期走行距离,所述输出数据包括列车列车加速度,和/或,列车减速度;
21、根据模拟列车运行性能数据,拟合列车运行性能模型。
22、根据本专利技术提供的基于强化学习的列车运行控制方法,所述根据智能体最优策略,获取列车运行性能模型步骤之后还包括以下步骤:
23、获取列车在线运行数据;
24、根据列车在线运行数据,更新智能体最优策略;
25、根据更新得到的智能体最优策略,更新列车运行性能模型。
26、本专利技术还提供一种基于强化学习的列车运行控制装置,包括:
27、数据获取模块,用于获取列车当前运行数据;
28、控制参数获取模块,用于输入列车当前运行数据至列车运行性能模型,得到列车运行性能模型输出的列车控制参数;
29、运行控制模块,用于根据列车控制参数,控制列车运行;
30、其中,所述列车运行性能模型是根据列车运行数据,使用强化学习方法求解列车运行模型得到的。
31、本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于强化学习的列车运行控制方法。
32、本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于强化学习的列车运行控制方法。
33、本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于强化学习的列车运行控制方法。
34、本专利技术提供的基于强化学习的列车运行控制方法、装置、设备及介质,通过根据列车运行数据,使用强化学习方法求解列车运行模型得到列车运行性能模型,再根据列车运行性能模型得到列车控制参数,可以使列车运行性能模型更符合列车运行的实际情况,更大程度利用列车运行数据中的信息,提高数据样本的使用效率,使得到的列车运行性能模型具有更好的泛化能力,从而实现高准确度的轨道车辆运行控制,提高轨道车辆运行的安全性与可靠性。
本文档来自技高网...【技术保护点】
1.一种基于强化学习的列车运行控制方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于强化学习的列车运行控制方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的基于强化学习的列车运行控制方法,其特征在于,所述根据列车运行模型和列车运行数据,确定强化学习方法初始状态,包括以下步骤:
4.根据权利要求2所述的基于强化学习的列车运行控制方法,其特征在于,所述使用强化学习方法优化智能体策略,获取智能体最优策略,包括以下步骤:
5.根据权利要求3所述的基于强化学习的列车运行控制方法,其特征在于,所述根据智能体最优策略,获取列车运行性能模型,包括以下步骤:
6.根据权利要求2所述的基于强化学习的列车运行控制方法,其特征在于,所述根据智能体最优策略,获取列车运行性能模型步骤之后还包括以下步骤:
7.一种基于强化学习的列车运行控制装置,其特征在于,包括:
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于强化学习的列车运行控制方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于强化学习的列车运行控制方法。
...【技术特征摘要】
1.一种基于强化学习的列车运行控制方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于强化学习的列车运行控制方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的基于强化学习的列车运行控制方法,其特征在于,所述根据列车运行模型和列车运行数据,确定强化学习方法初始状态,包括以下步骤:
4.根据权利要求2所述的基于强化学习的列车运行控制方法,其特征在于,所述使用强化学习方法优化智能体策略,获取智能体最优策略,包括以下步骤:
5.根据权利要求3所述的基于强化学习的列车运行控制方法,其特征在于,所述根据智能体最优策略,获取列车运行性能模型,包括以下步骤:
6.根据权利要求2所述的基于强化学习的列车运行控制方法,...
【专利技术属性】
技术研发人员:李凯,宋亚京,张蕾,
申请(专利权)人:交控科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。