一种基于强化学习的PID机车自动驾驶优化控制方法技术

技术编号：17778941 阅读：72 留言：0更新日期：2018-04-22 07:03

本发明专利技术提供了一种基于强化PID的机车自动驾驶优化控制方法，本发明专利技术首先根据机车实际运行速度和最优速度的速度差以及当前线路信息作为强化PID的输入，通过强化学习得到一组最优PID控制参数，然后根据强化学习模块给出的最优PID控制参数实现PID控制，给出控制量，控制机车运行。本发明专利技术将强化学习用于PID参数调整，利用强化学习能较好的跟环境交互，具有自学习能力，能够更好的实现具有最佳参数组合的PID控制，提升优化效果，降低人工设计难度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的PID机车自动驾驶优化控制方法
本专利技术涉及机车运行优化操纵技术，尤其涉及一种基于强化学习的PID(比例、积分、微分)机车自动驾驶优化控制方法基于强化。
技术介绍
机车自动驾驶优化控制是机车自动控制系统的核心功能之一，其主要作用为根据最优速度曲线轨迹，基于实际运动状态并结合跟随控制算法计算得到相应的控制输入量，并将该控制输入量作用于机车完成速度控制的实际操作过程。机车自动驾驶系统需要实现准点、舒适和节能运行等指标。最优速度曲线的优化生成是机车自动驾驶系统满足准点、舒适和节能等指标的保证，也是进行机车驾驶控制的依据。但在实际运行过程中，因为各种外部因素的影响，机车的实际运行轨迹较难与理想曲线重合，因此机车自动驾驶系统中最优速度曲线跟随控制算法的主要目标是尽可能减少机车实际运行速度曲线与最优速度曲线的误差，保证机车能够按照最优速度曲线完成运行任务，因此机车自动驾驶系统控制算法也是保证机车实现准点、平稳和节能运行的关键技术之一。目前机车控制算法主要分为经典控制算法，改进PID控制算法，智能控制算法以及集成智能控制算法四类。经典控制算法和改进PID控制...
一种基于强化学习的PID机车自动驾驶优化控制方法

【技术保护点】
一种基于强化PID的机车自动驾驶优化控制方法，其特征在于，所述的方法包括：步骤S101，获取机车实际运行速度和最优速度的速度差以及当前线路信息等状态信息；步骤S102，基于上述速度差和当前线路信息，通过强化学习得到一组最优PID控制参数；步骤S103，采用学习得出的最优PID控制参数实现PID控制，得出控制量，并基于该控制量控制机车运行。

【技术特征摘要】
1.一种基于强化PID的机车自动驾驶优化控制方法，其特征在于，所述的方法包括：步骤S101，获取机车实际运行速度和最优速度的速度差以及当前线路信息等状态信息；步骤S102，基于上述速度差和当前线路信息，通过强化学习得到一组最优PID控制参数；步骤S103，采用学习得出的最优PID控制参数实现PID控制，得出控制量，并基于该控制量控制机车运行。2.根据权利要求1所述的一种基于强化PID的机车自动驾驶优化控制方法，其特征在于，所述步骤S102包括：基于机车当前实际运行速度和最优速度的速度差及线路信息确定状态空间，基于待优化的PID参数构建动作空间，基于机车当前实际运行速度和最优速度的速度差的加权平方和确定回报函数，并基于所述状态空间、动作空间和回报函数构建MDP模型；采用DHP算法对所构建的MDP模型进行强化学习训练，得到一组最优PID控制参数。3.根据权利要求2所述的一种基于强化PID的机车自动驾驶优化控制方法，其特征在于，所述采用DHP算法对所构建的MDP模型进行强化学习训练的过程包括：步骤一，将机...

【专利技术属性】
技术研发人员：黄晋，卢莎，赵曦滨，高跃，夏雅楠，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人