一种轨道交通自动驾驶运行控制方法、设备、存储介质技术

技术编号:37277362 阅读:12 留言:0更新日期:2023-04-20 23:44
本申请提供一种轨道交通自动驾驶运行控制方法、设备、存储介质,该方法包括:模拟列车自动驾驶运行环境,并建立多目标强化学习模型;针对运行线路,通过列车自动驾驶运行环境模拟列车性能;基于模拟的列车性能对多目标强化学习模型进行调参测试,得到多目标的参数调整知识;将参数调整知识嵌入待控制列车,以通过参数调整知识对待控制列车的自动驾驶系统进行参数调试及时变性能匹配,完成运行控制。本申请基于模拟的列车性能对多目标强化学习模型进行调参测试,得到多目标的参数调整知识,进而完成运行控制,实现列车运行安全、准时、节能、舒适、精确停车等多目标优化控制,增强列车自动驾驶系统控制自适应和泛化能力,提升控制算法的鲁棒性。升控制算法的鲁棒性。升控制算法的鲁棒性。

【技术实现步骤摘要】
一种轨道交通自动驾驶运行控制方法、设备、存储介质


[0001]本申请涉及轨道交通
,尤其涉及一种轨道交通自动驾驶运行控制方法、设备、存储介质。

技术介绍

[0002]既有列车ATO(Automatic Train Operation,列车自动驾驶系统)控制方法仅考虑了停车精度,并未考虑列车运行能耗、车辆性能变化、运行环境变化等因素,导致ATO系统需要针对特定线路、特定环境、特定车辆设计开发不同的代码版本,设置不同的配置参数。开发周期长,调试成本高,控制性能差。
[0003]同时,由于未考虑单个车辆在使用周期内的损耗及其更新机制,导致列车运行一段时间后,控制模型与实际列车性能偏差较大,而研发人员为了避免对单个车辆进行逐一调试,只能采用取平均值的方式弥补,进而持续拉大了各个列车之间的控制效率。

技术实现思路

[0004]为了解决上述技术缺陷之一,本申请提供了一种轨道交通自动驾驶运行控制方法、设备、存储介质。
[0005]本申请第一个方面,提供了一种轨道交通自动驾驶运行控制方法,该方法包括:
[0006]模拟列车自动驾驶运行环境,并建立多目标强化学习模型;
[0007]针对运行线路,通过列车自动驾驶运行环境模拟列车性能;
[0008]基于模拟的列车性能对多目标强化学习模型进行调参测试,得到多目标的参数调整知识;
[0009]将参数调整知识嵌入待控制列车,以通过参数调整知识对待控制列车的自动驾驶系统进行参数调试及时变性能匹配,完成运行控制。
[0010]可选地,针对运行线路,通过列车自动驾驶运行环境模拟列车性能,包括:
[0011]构建列车运行智能体;
[0012]针对运行线路,由初始状态开始,通过列车运行智能体引入动作序列空间与列车自动驾驶运行环境进行交互,不断更新列车运行状态;
[0013]计算各次交互所选动作获得的奖励;
[0014]将各次交互得到的当前状态、所选动作、获得的奖励以及下一状态构建成四元组存储于状态嵌套字典。
[0015]可选地,基于模拟的列车性能对多目标强化学习模型进行调参测试,得到多目标的参数调整知识,包括:
[0016]配置测试参数,初始化Q表;
[0017]针对每一时刻,通过多目标强化学习模型,基于测试参数和模拟的列车性能,确定该时刻状态、选择的动作和观察奖励,并根据该时刻状态、选择的动作和观察奖励更新Q表;
[0018]将最终的Q表作为多目标的参数调整知识。
[0019]可选地,测试参数,包括如下的一种或多种:站间距离、推荐运行时间、停车间隔、动作序列。
[0020]可选地,针对每一时刻,通过多目标强化学习模型,基于测试参数和模拟的列车性能,确定该时刻状态、选择的动作和观察奖励,包括:
[0021]对于任一时刻t,执行如下步骤:
[0022]通过多目标强化学习模型,基于测试参数和模拟的列车性能,将t时刻地面位移d
t
、车速v
t
、加速度a
t
编码成t时刻状态s
t

[0023]通过ε

greedy策略在动作空间中选择一个动作action
t

[0024]通过动力学、运动学模型计算第t+1时刻状态并计算奖励r
t

[0025]可选地,根据该时刻状态、选择的动作和观察奖励更新Q表,包括:
[0026]通过如下公式更新Q表:
[0027]Q
new
(s
t
,a
t
)

(1

α)Q(s
t
,a
t
)+α
·
[r
t

·
max
a
Q(s
t+1
,a
t
)];
[0028]其中,Q
new
(s
t
,a
t
)为更新后的Q表,a
t
为第t时刻基于动作action
t
获得的奖励,Q(s
t
,a
t
)为更新前的Q表,α为学习率,0<α≤1,γ为衰减系数,0<γ≤1,s
t+1
为第t+1时刻的状态。
[0029]可选地,列车运行智能体基于限速对列车状态进行边界限制,基于推荐运行时间与单步运行时间间隔的比值对列车准时性进行限制,基于动作序列空间中的级位变化序列对加速度变化的范围进行限制,根据预先设置的停车间隔对停车区间进行限制。
[0030]可选地,限速,包括:车辆限速、线路限速和EBI限速。
[0031]本申请第二个方面,提供了一种电子设备,包括:
[0032]存储器;
[0033]处理器;以及
[0034]计算机程序;
[0035]其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如上述第一个方面所述的方法。
[0036]本申请第三个方面,提供了一种计算机可读存储介质,其上存储有计算机程序;所述计算机程序被处理器执行以实现如上述第一个方面所述的方法。
[0037]本申请提供一种轨道交通自动驾驶运行控制方法、设备、存储介质,该方法包括:模拟列车自动驾驶运行环境,并建立多目标强化学习模型;针对运行线路,通过列车自动驾驶运行环境模拟列车性能;基于模拟的列车性能对多目标强化学习模型进行调参测试,得到多目标的参数调整知识;将参数调整知识嵌入待控制列车,以通过参数调整知识对待控制列车的自动驾驶系统进行参数调试及时变性能匹配,完成运行控制。
[0038]本申请提供的方法基于模拟的列车性能对多目标强化学习模型进行调参测试,得到多目标的参数调整知识,进而通过参数调整知识对待控制列车的自动驾驶系统进行参数调试及时变性能匹配,完成运行控制,可以实现列车运行安全、准时、节能、舒适、精确停车等多目标优化控制,增强列车自动驾驶系统控制算法自适应和泛化能力,提升控制算法的鲁棒性,减少设备上线后的人员维护成本、提高运营效率。
[0039]另外,在一种实现中,构建列车运行智能体,通过列车运行智能体更新列车运行状态,形成状态嵌套字典,提升了参数调整知识的训练速度和训练准确度,保证了列车性能的
准确模拟,进而保证了参数调整知识的准确性,实现列车运行安全、准时、节能、舒适、精确停车等多目标优化控制。
[0040]另外,在一种实现中,基于各时刻的时刻状态、选择的动作和观察奖励更新Q表,得到参数调整知识,保证了参数调整知识的准确性,实现列车运行安全、准时、节能、舒适、精确停车等多目标优化控制。
[0041]另外,在一种实现中,明确了测试参数,保证了参数调整知识的准确性,实现列车运行安全、准时、节能、舒适、精确停车等多目标优化控制。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种轨道交通自动驾驶运行控制方法,其特征在于,所述方法包括:模拟列车自动驾驶运行环境,并建立多目标强化学习模型;针对运行线路,通过所述列车自动驾驶运行环境模拟列车性能;基于模拟的列车性能对所述多目标强化学习模型进行调参测试,得到多目标的参数调整知识;将所述参数调整知识嵌入待控制列车,以通过参数调整知识对所述待控制列车的自动驾驶系统进行参数调试及时变性能匹配,完成运行控制。2.根据权利要求1所述的方法,其特征在于,所述针对运行线路,通过所述列车自动驾驶运行环境模拟列车性能,包括:构建列车运行智能体;针对运行线路,由初始状态开始,通过所述列车运行智能体引入动作序列空间与所述列车自动驾驶运行环境进行交互,不断更新列车运行状态;计算各次交互所选动作获得的奖励;将各次交互得到的当前状态、所选动作、获得的奖励以及下一状态构建成四元组存储于状态嵌套字典。3.根据权利要求2所述的方法,其特征在于,所述基于模拟的列车性能对所述多目标强化学习模型进行调参测试,得到多目标的参数调整知识,包括:配置测试参数,初始化Q表;针对每一时刻,通过所述多目标强化学习模型,基于所述测试参数和模拟的列车性能,确定该时刻状态、选择的动作和观察奖励,并根据该时刻状态、选择的动作和观察奖励更新Q表;将最终的Q表作为多目标的参数调整知识。4.根据权利要求3所述的方法,其特征在于,所述测试参数,包括如下的一种或多种:站间距离、推荐运行时间、停车间隔、动作序列。5.根据权利要求3所述的方法,其特征在于,所述针对每一时刻,通过所述多目标强化学习模型,基于所述测试参数和模拟的列车性能,确定该时刻状态、选择的动作和观察奖励,包括:对于任一时刻t,执行如下步骤:通过所述多目标强化学习模型,基于所述测试参数和模拟的列车性能,将t时刻地面位移d
t
、车速v
t
、加速度a
t
编码成t时刻状态s
t
;通过ε

greedy策略在动作空间中选择一个动作action
t
;通过动力学、运动学模...

【专利技术属性】
技术研发人员:王殿元付哲
申请(专利权)人:交控科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1