【技术实现步骤摘要】
一种适用于高速列车自动停车的深度强化学习方法
[0001]本专利技术属于轨道交通车辆运行控制
,具体为一种适用于高速列车自动停车的深度强化学习方法。
技术介绍
[0002]列车自动驾驶(Automatic Train Operation,ATO)是智慧轨道交通的核心组成部分,列车自动停车(Automatic Train Parking,ATP)问题是ATO领域的热点之一。现有的关于ATP问题的人工智能控制方法的普遍难点在于制动挡位切换时控制参数寻优。基于此,有必要专利技术一种新的列车自动停车控制方法,以更好解决高速列车自动停车问题。
技术实现思路
[0003]本专利技术旨在解决高速列车自动停车过程中制动挡位切换时控制参数寻优难的技术问题,提供了一种适用于高速列车自动停车的深度强化学习方法。
[0004]本专利技术解决其技术问题采用的技术手段是:一种适用于高速列车自动停车的深度强化学习方法,包括以下步骤:
[0005]步骤S1:通过分析高速列车自动停车制动过程中的运动特点构建动力学模型和停 ...
【技术保护点】
【技术特征摘要】
1.一种适用于高速列车自动停车的深度强化学习方法,其特征在于,包括以下步骤:步骤S1:通过分析高速列车自动停车制动过程中的运动特点构建动力学模型和停车过程中的制动模型,高速列车的制动过程为:高速列车以初速度进入停车区域后,根据状态信息,使列车速度均匀下降,直至到达指定位置时速度恰为零;步骤S2:根据步骤S1中的动力学模型和制动模型,对高速列车停车制动过程进行深度强化学习,其中深度强化学习包括环境和智能体两个相互作用的部分,环境状态为o,智能体将环境状态o划分为o1和o2两个部分,环境状态o在任意t时刻的定义为o=(o1,o2);o1由列车的瞬时位置l、瞬时速度v、实时选择制动指令u以及指令的执行时间m组成,o1在任意t时刻的定义为o1=(l,v,u,m);o2由参考制动系数b和坡度α组成,o2在任意t时刻的定义为o2=(b,α),参考制动系数b由步骤S1中的制动模型得到;步骤S3:利用长短期网络的记忆功能提取列车t时刻的状态序列特征s
(t)
,列车t时刻的状态序列特征s
(t)
由最近的i个观测状态o1构成,s
(t)
的定义为利用全连接网络的泛化能力提取其余的数据特征o2,将长短期网络的输出与全连接网络的输出并联后拼接成一个多输入单输出的神经网络结构;智能体包含知识模块和深度强化学习模块,知识模块用于估计列车当前状态的理想制动指令;深度强化学习模块进一步决策该理想制动指令的持续执行时间;高速列车停车制动过程的深度强化学习包括以下子步骤:步骤S3
‑
1:建立知识模块,知识模块通过以下公式获得:a
i
=G(u
i
,v),i=0,1,
…
or 7
ꢀꢀꢀꢀ
(2),u
I
=u
id
ꢀꢀꢀꢀꢀ
(4),其中a
α
(l)是由线路坡度引起的加速度,a
I
为列车理想加速度;l表示实际位置,L
T
表示制动终点,u
max
表示最大制动指令,G(u
max
,v)是关于u
max
和v的非线性静态函数;v
r
表示参考速度;u
i
表示制动指令,G(u
i
,v)是关于u
max
和v的非线性静态函数;a
i
为列车每个指令对应的估计减速度,u
I
为列车当前状态的理想执行指令;i表示挡位;步骤S3
‑
2:利用步骤S3
【专利技术属性】
技术研发人员:梁东岳,崔玉君,杨卫华,于晋伟,
申请(专利权)人:太原理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。