当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于强化学习的PID机车自动驾驶优化控制方法技术

技术编号:17778941 阅读:46 留言:0更新日期:2018-04-22 07:03
本发明专利技术提供了一种基于强化PID的机车自动驾驶优化控制方法,本发明专利技术首先根据机车实际运行速度和最优速度的速度差以及当前线路信息作为强化PID的输入,通过强化学习得到一组最优PID控制参数,然后根据强化学习模块给出的最优PID控制参数实现PID控制,给出控制量,控制机车运行。本发明专利技术将强化学习用于PID参数调整,利用强化学习能较好的跟环境交互,具有自学习能力,能够更好的实现具有最佳参数组合的PID控制,提升优化效果,降低人工设计难度。

【技术实现步骤摘要】
一种基于强化学习的PID机车自动驾驶优化控制方法
本专利技术涉及机车运行优化操纵技术,尤其涉及一种基于强化学习的PID(比例、积分、微分)机车自动驾驶优化控制方法基于强化。
技术介绍
机车自动驾驶优化控制是机车自动控制系统的核心功能之一,其主要作用为根据最优速度曲线轨迹,基于实际运动状态并结合跟随控制算法计算得到相应的控制输入量,并将该控制输入量作用于机车完成速度控制的实际操作过程。机车自动驾驶系统需要实现准点、舒适和节能运行等指标。最优速度曲线的优化生成是机车自动驾驶系统满足准点、舒适和节能等指标的保证,也是进行机车驾驶控制的依据。但在实际运行过程中,因为各种外部因素的影响,机车的实际运行轨迹较难与理想曲线重合,因此机车自动驾驶系统中最优速度曲线跟随控制算法的主要目标是尽可能减少机车实际运行速度曲线与最优速度曲线的误差,保证机车能够按照最优速度曲线完成运行任务,因此机车自动驾驶系统控制算法也是保证机车实现准点、平稳和节能运行的关键技术之一。目前机车控制算法主要分为经典控制算法,改进PID控制算法,智能控制算法以及集成智能控制算法四类。经典控制算法和改进PID控制算法易于实现且鲁棒性较好但存在参数整定困难;智能控制算法也各有特点,如模糊控制对于难以建立精确模型而可根据经验控制的系统的控制效果较好,但存在模糊规则的设计过于依赖人工设计以及无法运用于延时大的系统;专家系统能较好的利用专家经验知识,但存在知识获取依赖人工以及推理能力较弱的不足。因为各类智能控制算法各有特点且存在互补的可能,所以集成智能控制算法根据不同智能控制算法的优点进行结合,但仍无法完全避免结合的智能控制算法本身的不足。如模糊预测控制,虽然提高了控制效果,但是仍需人工设计模糊规则。虽然控制算法在理论上有了很多的研究成果,但目前投入使用的大部分机车控制算法采用的仍是PID控制算法,但PID控制算法本身的限制决定了控制性能无法达到最优。又由于机车运行环境存在复杂多变的特性,也会影响PID控制性能。
技术实现思路
本专利技术的目的是提供一种基于强化学习的PID机车自动驾驶控制方法,其能够适应机车运行环境复杂多变的特性,在不同的实际场景下实现在线控制且可提升控制性能优化效果,同时不需人工设计控制规则。本专利技术通过如下技术方案实现:本专利技术提供一种基于强化PID的机车自动驾驶优化控制方法,其包括:步骤S101,获取机车实际运行速度和最优速度的速度差以及当前线路信息等状态信息;步骤S102,基于上述速度差和当前线路信息,通过强化学习得到一组最优PID控制参数;步骤S103,采用学习得出的最优PID控制参数实现PID控制,得出控制量,并基于该控制量控制机车运行。更优选地,所述步骤S102包括:基于机车当前实际运行速度和最优速度的速度差及线路信息确定状态空间,基于待优化的PID参数构建动作空间,基于机车当前实际运行速度和最优速度的速度差的加权平方和确定回报函数,并基于所述状态空间、动作空间和回报函数构建MDP模型;采用DHP算法对所构建的MDP模型进行强化学习训练,得到一组最优PID控制参数。更优选地,所述采用DHP算法对所构建的MDP模型进行强化学习训练的过程包括:步骤一,将机车在当前时刻k的实际运行速度和最优速度的速度差及线路信息作为特征数据信息输入,并输入到MDP模型中;步骤二,评价器网络根据列车的特征数据信息输入,进行状态抽象,得到当前状态下最优调度动作,评价器网络在动作空间中选择相应的调度动作,并将该选择的调度动作以及状态空间中的前一时刻的列车状态、司机状态发送给执行器网络;执行器网络根据前一时刻的列车状态、司机状态和当前时刻的动作选择来进行状态转移,同时根据回报函数计算得出回报值,并将该回报值和改变后的状态信息反馈给评价器网络;重复步骤一级步骤二,不断迭代地进行模型训练和学习,最终通过执行器网络输出当前状态下的一组最优PID参数值。更优选地,在所述步骤S103中采用如下公式计算控制量:其中KP,KI,KD分别表示比例、微分和积分参数;e(t)为机车实际运行速度和期望速度的差值。由上述本专利技术的技术方案可以看出,本专利技术具有如下有益效果:本专利技术将强化学习引入PID控制算法中,强化学习能较好的跟环境交互,具有自学习功能,适应不确定系统的动态特性,因此能适应机车运行环境复杂多变的特性,在不同的实际场景下实现在线控制,同时不需人工设计控制规则。利用本专利技术的方法,可以提升优化效果,降低人工设计难度。附图说明图1为本专利技术的实施流程图;图2为DHP强化学习模型;图3为机车多质点动力学模型图;图4为机车牵引特性曲线图;图5为机车制动特性曲线图。具体实施方式以下结合附图及其实施例对本专利技术进行详细说明,但并不因此将本专利技术的保护范围限制在实施例描述的范围之中。为使本专利技术更为清晰,下面对本专利技术进行详细的说明。本专利技术第一实施例提供一种基于强化学习的PID机车自动驾驶控制方法,其处理过程如图1所示,包括:步骤S101,获取机车实际运行速度和最优速度的速度差以及当前线路信息等状态信息。机车上的LKJ(机车运行监控装置)能够记录机车的实际运行速度,因此可以从LKJ中获取到机车实际运行速度。可以从实验室研发的硬件设施中或者机车调度系统中获取到机车的最优速度。当前线路信息在机车运行前根据事先安排的线路获取到,该当前线路信息包括:当前坡度值、上一段坡度的坡度值和下一段坡度的坡度值等。步骤S102,基于上述速度差和当前线路信息,通过强化学习得到一组最优PID控制参数。该步骤S102的具体实现过程如下:1、构建MDP(MarkovDecisionProcesses,马尔科夫决策过程)模型利用强化学习来优化PID控制参数属于一种序贯决策过程,因此,首先要确定状态空间,动作空间和回报函数三部分,继而依据这三部分来构建机车自动驾驶优化控制过程的MDP模型,该MDP模型的三大部分如表1所示:表1MDP模型其中的状态空间由机车当前实际运行速度和最优速度的速度差及线路信息来表示。动作空间由待优化的PID参数来表示,该待优化的PID参数包括KP,KI,KD。该KP,KI,KD分别表示比例、微分和积分参数。回报函数由机车当前实际运行速度和最优速度的速度差的加权平方和来表示。2、利用上述构建的MDP模型进行强化学习训练,得到一组最优PID控制参数。在本实施例中强化学习部分采用DHP算法。利用上述构建的MDP模型进行强化学习训练时,采用如图2所示的DHP强化学习模型来完成。由图2可以看出,该DHP强化学习模型中,包括评价器网络,执行器网络、回报函数和PID控制器。采用DHP算法进行强化学习训练时,利用机车实际运行过程中实际速度和最优速度之间的速度差,当前线路信息,系统的当前回报值,执行器网络和评价器网络能够进行在线学习,并最终通过PID控制器输出当前状态下的一组最优PID参数值。具体实现流程包括如下步骤:将机车在当前时刻k的实际运行速度和最优速度的速度差及线路信息输入到MDP模型中;根据评价器网络和执行器网络计算当前时刻的最优PID控制参数;具体如下:评价器网络根据列车的特征数据信息(如机车实际运行速度、最优速度、当前线路信息)输入,进行状态抽象,得到当前状态下最优调度动作,评价器网络在动作空间中选择相应的调本文档来自技高网
...
一种基于强化学习的PID机车自动驾驶优化控制方法

【技术保护点】
一种基于强化PID的机车自动驾驶优化控制方法,其特征在于,所述的方法包括:步骤S101,获取机车实际运行速度和最优速度的速度差以及当前线路信息等状态信息;步骤S102,基于上述速度差和当前线路信息,通过强化学习得到一组最优PID控制参数;步骤S103,采用学习得出的最优PID控制参数实现PID控制,得出控制量,并基于该控制量控制机车运行。

【技术特征摘要】
1.一种基于强化PID的机车自动驾驶优化控制方法,其特征在于,所述的方法包括:步骤S101,获取机车实际运行速度和最优速度的速度差以及当前线路信息等状态信息;步骤S102,基于上述速度差和当前线路信息,通过强化学习得到一组最优PID控制参数;步骤S103,采用学习得出的最优PID控制参数实现PID控制,得出控制量,并基于该控制量控制机车运行。2.根据权利要求1所述的一种基于强化PID的机车自动驾驶优化控制方法,其特征在于,所述步骤S102包括:基于机车当前实际运行速度和最优速度的速度差及线路信息确定状态空间,基于待优化的PID参数构建动作空间,基于机车当前实际运行速度和最优速度的速度差的加权平方和确定回报函数,并基于所述状态空间、动作空间和回报函数构建MDP模型;采用DHP算法对所构建的MDP模型进行强化学习训练,得到一组最优PID控制参数。3.根据权利要求2所述的一种基于强化PID的机车自动驾驶优化控制方法,其特征在于,所述采用DHP算法对所构建的MDP模型进行强化学习训练的过程包括:步骤一,将机...

【专利技术属性】
技术研发人员:黄晋卢莎赵曦滨高跃夏雅楠
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1