基于强化学习的列车ATO控制方法、设备及存储介质技术

技术编号:36032749 阅读:8 留言:0更新日期:2022-12-21 10:35
本申请提供基于强化学习的列车ATO控制方法、设备、存储介质,其中方法包括:每隔预设控制周期,将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入,得到期望控制量;其中,列车自动驾驶控制算法基于强化学习训练环境训练,所述强化学习训练环境基于被控列车的动力学特性和被控列车的运行控制系统功能搭建;将期望控制量下发给被控列车,以使被控列车根据期望控制量,通过被控车辆的控制系统得出施加的牵引力/制动力,控制被控列车运行,实现了列车运行安全、准时、节能、舒适、精确停车的多目标优化控制,增强列车自动驾驶控制算法自适应和泛化能力,适配多种运行场景的参数自适应,提升控制算法的鲁棒性。的鲁棒性。的鲁棒性。

【技术实现步骤摘要】
基于强化学习的列车ATO控制方法、设备及存储介质


[0001]本申请涉及轨道交通
,尤其涉及一种基于强化学习的列车ATO控制方法、设备及存储介质。

技术介绍

[0002]城市轨道交通已经广泛应用列车ATO(Automatic Train Operation,自动驾驶)系统,传统的列车ATO控制算法以采用PID(Proportional

Integral

Derivative,比例

积分

微分)控制器为主,在调节控制器参数时主要以满足运营需求中的停车精度为主,较少考虑列车运行能耗、车辆性能变化、运行环境变化等因素,导致ATO系统需要针对特定线路、特定环境、特定车辆设计开发不同的代码版本,设置不同的配置参数。开发周期长,调试成本高,控制性能差。

技术实现思路

[0003]为了解决上述技术缺陷之一,本申请提供了一种基于强化学习的列车ATO控制方法、设备及存储介质。
[0004]本申请第一个方面,提供了一种基于强化学习的列车ATO控制方法,所述方法包括:
[0005]每隔预设控制周期,将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入,得到期望控制量;其中,列车自动驾驶控制算法基于强化学习训练环境训练,所述强化学习训练环境基于被控列车的动力学特性和被控列车的运行控制系统功能搭建;
[0006]将所述期望控制量下发给所述被控列车,以使所述被控列车根据所述期望控制量,通过所述被控车辆的控制系统得出施加的牵引力/制动力,控制所述被控列车运行。
[0007]可选地,所述每隔预设控制周期,将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入,得到期望控制量之前,还包括:
[0008]对被控列车的动力学特性进行建模;
[0009]基于建立的模型,结合所述被控列车的运行控制系统功能搭建强化学习训练环境;
[0010]确定基于强化学习的列车自动驾驶控制算法架构;
[0011]基于架构和所述强化学习训练环境,对列车自动驾驶控制算法进行训练,得到训练好的列车自动驾驶控制算法。
[0012]可选地,所述对被控列车的动力学特性进行建模,包括:
[0013]提取被控列车的数据,所述数据包括:自动驾驶通控数据中的控制指令以及列车实际的加速度;
[0014]通过所述数据辨识出系统增益K和时间常数τ;
[0015]采用惯性环节对被控列车制动延时建立如下模型:
[0016]其中,a为表示被控列车的实际加速度,a
des
表示被控列车的期望加速度。
[0017]可选地,所述强化学习训练环境,根据所述被控列车在N周期时刻施加的动作指令a
N
,得到执行所述动作指令的状态转移:S
N+1

S
N
(a
N
);
[0018]其中,S
N+1
为所述被控列车N+1周期时刻的状态,S
N
表示列车N周期的状态。
[0019]可选地,所述动作指令为加速指令,或者,减速指令,或者惰行指令。
[0020]可选地,所述状态为如下的一种或多种:速度,加速度,位置。
[0021]可选地,所述基于架构和所述强化学习训练环境,对列车自动驾驶控制算法进行训练,得到训练好的列车自动驾驶控制算法,包括:
[0022]基于架构和所述强化学习训练环境,得到状态空间动作空间折扣率γ,学习率α;
[0023]随机初始化Q表Q(s,a),其中,s为状态空间中的状态标识,a为动作标识,且对于任意状态s和动作a,
[0024]初始化起始状态s;
[0025]选择动作a=π(s);
[0026]执行动作a,得到环境反馈的即时奖励r和新状态s


[0027]更新Q(s,a)

Q(s,a)+α(r+γmax
a

Q(s

,a

)

Q(s,a)),其中,a

为新动作;
[0028]更新状态s

s


[0029]重复初始化起始状态s的步骤及后续步骤,直至s为终止状态;
[0030]重复初始化起始状态s的步骤及后续步骤,直至Q表Q(s,a)收敛;
[0031]得到训练好的列车自动驾驶控制算法
[0032]可选地,所述将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入,得到期望控制量之前,还包括:
[0033]将预先训练好的列车自动驾驶控制算法集成至所述被控列车的自动驾驶模块。
[0034]本申请第二个方面,提供了一种电子设备,包括:
[0035]存储器;
[0036]处理器;以及
[0037]计算机程序;
[0038]其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如上述第一个方面所述的方法。
[0039]本申请第三个方面,提供了一种计算机可读存储介质,其上存储有计算机程序;所述计算机程序被处理器执行以实现如上述第一个方面所述的方法。
[0040]本申请提供基于强化学习的列车ATO控制方法、设备、存储介质,其中方法包括:每隔预设控制周期,将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入,得到期望控制量;其中,列车自动驾驶控制算法基于强化学习训练环境训练,所述强化学习训练环境基于被控列车的动力学特性和被控列车的运行控制系统功能搭建;将期望控制量下发给被控列车,以使被控列车根据期望控制量,通过被控车辆的控
制系统得出施加的牵引力/制动力,控制被控列车运行。
[0041]本申请提供的方法实现了列车运行安全、准时、节能、舒适、精确停车的多目标优化控制,增强列车自动驾驶控制算法自适应和泛化能力,适配多种运行场景的参数自适应,提升控制算法的鲁棒性。
[0042]另外,在一种实现中,对被控列车的动力学特性进行建模,进而搭建强化学习训练环境,确定基于强化学习的列车自动驾驶控制算法架构后,基于架构和所述强化学习训练环境,对列车自动驾驶控制算法进行训练,保证了训练好的列车自动驾驶控制算法的准确性,进而实现了列车运行安全、准时、节能、舒适、精确停车的多目标优化控制。
[0043]另外,在一种实现中,通过被控列车的数据对被控列车的动力学特性进行建模,保证了训练环境的质量,进而保证了训练好的列车自动驾驶控制算法的准确性,实现了列车运行安全、准时、节能、舒适、精确停车的多目标优化控制。
[0044]另外,在一种实现中,强化学习训练环境可以根据所述被控列车在周期时刻施加的动作指令,得到执行所述动本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的列车ATO控制方法,其特征在于,所述方法包括:每隔预设控制周期,将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入,得到期望控制量;其中,列车自动驾驶控制算法基于强化学习训练环境训练,所述强化学习训练环境基于被控列车的动力学特性和被控列车的运行控制系统功能搭建;将所述期望控制量下发给所述被控列车,以使所述被控列车根据所述期望控制量,通过所述被控车辆的控制系统得出施加的牵引力/制动力,控制所述被控列车运行。2.根据权利要求1所述的方法,其特征在于,所述每隔预设控制周期,将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入,得到期望控制量之前,还包括:对被控列车的动力学特性进行建模;基于建立的模型,结合所述被控列车的运行控制系统功能搭建强化学习训练环境;确定基于强化学习的列车自动驾驶控制算法架构;基于架构和所述强化学习训练环境,对列车自动驾驶控制算法进行训练,得到训练好的列车自动驾驶控制算法。3.根据权利要求2所述的方法,其特征在于,所述对被控列车的动力学特性进行建模,包括:提取被控列车的数据,所述数据包括:自动驾驶通控数据中的控制指令以及列车实际的加速度;通过所述数据辨识出系统增益K和时间常数τ;采用惯性环节对被控列车制动延时建立如下模型:其中,a为表示被控列车的实际加速度,a
des
表示被控列车的期望加速度。4.根据权利要求2所述的方法,其特征在于,所述强化学习训练环境,根据所述被控列车在N周期时刻施加的动作指令a
N
,得到执行所述动作指令的状态转移:S
N+1

S
N
(a
N
);其中,S
N+1
为所述被控列车N+1周期时刻的状态,S
N
表示列车N周期的状态。5.根据权利要求4所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:陈明亮张蕾肖骁王伟
申请(专利权)人:交控科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1