基于强化学习的增强高铁自动驾驶控制系统准时性的方法技术方案

技术编号:39064455 阅读:29 留言:0更新日期:2023-10-12 19:57
本发明专利技术提供一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法,通过建立基本数据模块和列车运行仿真模块,设置奖励函数和额外单步奖励,设计神经网络结构,构建高速列车自动驾驶训练模型;确定训练参数执行训练,得到高速列车自动驾驶控制模型;本发明专利技术改进列车准时性奖励函数的设置方式,在保留原有全局奖励方法的基础上,设置一个在一轮训练过程中的每个单步中都能给予智能体准时性反馈的额外奖励函数,使奖励函数的引导性更强,解决准时性稀疏奖励难以获得的问题,提高列车自动驾驶控制系统的训练效率,更好地满足自动驾驶列车运行过程中的准时性要求。车运行过程中的准时性要求。车运行过程中的准时性要求。

【技术实现步骤摘要】
基于强化学习的增强高铁自动驾驶控制系统准时性的方法


[0001]本专利技术涉及一种高铁自动驾驶控制方法,特别涉及一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法。

技术介绍

[0002]强化学习是实现强人工智能的方法之一。作为一类自学习的机器学习算法,不同于监督学习与无监督学习,强化学习凭借着试错学习、反馈机制等独特优势,在自动化控制领域得到了深入而广泛的研究。强化学习基于马尔科夫决策过程,以奖励函数作为激励,使智能体在不断与环境交互的过程中采用探索试错的方法自主迭代学习,逐渐获得经验和知识,并做出相应的行动策略以适应环境。强化学习方法在多阶段决策问题中展现出了强大的自学习能力和近似最优解搜索的显著优越性。在列车自动驾驶决策领域具有巨大的应用潜力。
[0003]奖励稀疏是强化学习在列车准时性决策实际应用场景中存在的一个关键问题。奖励函数是由环境给出的表示强化学习智能体在某一步采取某个策略的优劣程度的反馈信号,强化学习智能体的目的就是最大化可以获得的奖励。奖励函数的设置方法的不同将直接影响到智能体的行为,从而影响控制策略的训练效率及本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法,其特征在于:包括下述步骤:步骤1,建立基本数据模块,包括列车参数模块与线路数据模块;步骤2,基于基本数据模块,建立列车运行仿真模块中的列车运行仿真环境,所述的列车运行仿真环境包括列车运动学模型和列车状态转移模型;步骤3,基于基本数据模块和列车运行仿真模块,定义状态空间与动作空间,设置全局奖励函数,设置额外单步奖励,定义强化学习决策控制模型架构,设计神经网络结构,构建高速列车自动驾驶训练模型;所述的全局奖励函数依据列车运行的安全性与准时性指标设置;所述的额外单步奖励驱使智能体的运行速度在条件满足时趋向于平均运行速度,引导智能体在限速条件允许的前提下,尽量以接近的速度运行,以增强列车运行的准时性;步骤4,确定强化学习人工神经网络的超参数并执行训练,直至模型收敛,得到高速列车自动驾驶控制模型;使用此模型输出的策略即为满足准时性要求的高速列车运行控制方法。2.根据权利要求1所述的一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法,其特征在于:基本数据模块中,所述的列车参数模块包括:列车基本数据、列车基本阻力参数、附加阻力参数、列车牵引制动特性、列车质量变化参数中的一种或数种;所述的线路数据模块包括:坡道数据、弯道数据、隧道数据中的一种或数种。3.根据权利要求1所述的一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法,其特征在于:步骤2列车运行仿真模块中,所述的列车运动学模型和列车状态转移模型建立方法如下:2.1、所述的列车运动学模型如公式(1)所示:式中,x为列车的位置;v为列车实时运行速度,单位为km/h;m为列车质量,单位为t;F(v)和B(v)分别是列车在速度为v时对应的最大牵引力和最大制动力,单位为kN;u
f
和u
b
分别为牵引力和制动力的输出比例;R
c
(v)是列车在一定速度下受到的基本运行阻力,单位为kN;R
t
为列车运行所受的总附加阻力,单位为kN;2.2、所述的列车状态转移模型建立方法如下:根据列车运动学模型提供的数据,确定列车当前运行状态,所述的列车当前运行状态包括列车当前速度、运行距离、运行时间;将列车当前运行状态传递给强化学习决策控制模型,并接收来自决策控制模型输出的牵引力控制指令,输入列车运动学模型进行列车运动学计算,得到列车的下一状态。4.根据权利要求3所述的一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法,其特征在于:所述的列车运动学模型中:2.1.1、所述的F(v)和B(v)的计算方法:对于已知型号的列车,根据其牵引特性曲线与制动特性曲线,利用插值法求解确定速度对应的牵引力与制动力;
2.1.2、所述的基本运行阻力R
c
(v)由轴承阻力、滚动阻力、滑动阻力、冲击和振动阻力以及空气阻力构成,根据经验公式进行计算:R
b
(t)=(r1+r2v+r3v2)m
·
g
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)式中,r1、r2和r3为阻力系数,v为列车的实时运行速度,m为列车总质量,g为重力加速度;2.1.3、所述的总附加阻力R
t
包括:(1)坡道附加阻力W
i
:列车所受重力沿坡道方向的分力W
i
=m
·
g
·
sinθ
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中θ为坡道与水平方向的夹角;(2)曲线附加阻力W
r
:根据经验公式计算:其中,A为试验方法确定的常数,R为曲线半径;(3)隧道附加空气阻力W
s
:计算公式为:W
s
=0.00013L
s
·
m
·
g
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)其中,L
s
为隧道长度,单位为m;综上,列车运行所受的总附加阻力为:R
t
=W
i
+W
r
+W
s
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)。5.根据权利要求1所述的一种基于强化学习的增强高铁自动驾驶控制系统准时性的方法,其特征在于:步骤3所述高速列车自动驾驶训练模型建立过程包括:3.1、定义状态空间:列车在站间的运行过程中,将列车的状态S
i
定义为:S
i
=[x
i
,v
i
,t
resi
,i
i
,r
i
,c
i
,d
i
]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)其中x
i
为当前时刻的列车位置;v
i
为当前时刻的列车速度;i
i
为当前位置处的道路坡度;t
resi
为列车计划到站剩余运行时间,t
resi
∈[0,T],T为给定的列车站间运行时分;r
i
为当前位置的道路曲率;c
i
和d
i
为布尔变量,c
i
代表当前是否处于隧道中,d...

【专利技术属性】
技术研发人员:邓海沈迪金立生朱文涛刘国峰谢宪毅王芳荣姜玉莹
申请(专利权)人:燕山大学吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1