一种电液伺服系统强化学习控制方法技术方案

技术编号：40339916 阅读：21 留言：0更新日期：2024-02-09 14:28

本发明专利技术公开了一种电液伺服系统强化学习控制方法，该方法为：首先，建立单出杆电液位置伺服系统的数学模型；然后，基于多层前馈神经网络，设计执行神经网络估计器，对系统受到的匹配和非匹配未知函数扰动进行估计，并设计基于执行神经网络估计器的扰动观测器，对系统的匹配和非匹配时变外干扰进行估计；其次，设计面向模型不确定性补偿的单出杆电液伺服系统强化学习控制算法和执行‑评判神经网络自适应律；最后，选取神经网络权值参数的初始值及自适应律矩阵以及控制器参数，对单出杆电液伺服系统进行控制。本发明专利技术能够实现单出杆电液伺服系统在强扰工况下的高精度跟踪性能，具有重要的工程应用价值。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及电气液压控制，特别是一种电液伺服系统强化学习控制方法。

技术介绍

1、电液控制系统是电气液压控制系统简称。电液伺服系统具有抗负载能力强、响应速度快等优点，在自动化领域是一类重要的控制设备，被广泛应用于控制精度高、输出功率大的工业控制领域。

2、电液伺服系统具有非常复杂的非线性因素，由于伺服元件制造和工况等多种因素，导致电液伺服系统的高精度控制具有很大的挑战性。电液伺服机构在机械制造革新浪潮中扮演着越来越重要的地位。国内外的电液伺服阀厂商为了巩固优势与发展市场，不断提高电液伺服阀的电气性能和结构先进性。一方面这为更高效、响应速度更快的控制算法提供了机遇，另一方面这也对工程人员提出了挑战。如何有效设计控制算法，使得系统的鲁棒性大幅提高，同时保证有效的跟踪精度以及工程上可接受的收敛时间，是能够影响智能制造、精密制造等项目的关键技术难题。控制理论在国内发展蓬勃，理论积累丰厚，但领域前沿的研究稍显薄弱，因此必须积极创新。

3、目前针对考虑电液伺服系统模型不确定性的先进控制策略，主要有自适应鲁棒控制、自抗扰自适应控制、基于神经网络自适应的控制等方法。神经网络与自适应控制相结合的研究已成为智能控制的一个新的分支，自适应控制具有强鲁棒性，神经网络则具有良好的自学习功能和容错能力，神经网络自适应控制由于较好地融合了两者的优点而具有强大的优势。这些控制方法理论上能带来较为理想的控制能力，但在工程应用上，由于系统工况较为复杂，如不匹配扰动的存在及系统元件非线性的特点，使得智能控制算法会变繁琐，运算量较大，不易工程实现。

4、随着被控系统越来越复杂，人们对控制系统的要求越来越高，特别是要求控制系统能适应不确定性、时变的对象与环境。基于神经网络的控制在解决上述控制问题中发挥着重要的作用，从而越来越受到人们的重视。但基于神经网络自适应的控制方法在强扰工况下其神经网络自适应的性能会受到严重影响，使得系统的自适应效果大大下降，甚至会严重影响系统的控制性能。

5、现有的基于神经网络自适应的控制大多针对双出杆类型的液压缸或者液压马达这类非线性因素不太突出的执行器，而针对非线性摩擦、非线性泄漏、伺服阀流量等非线性因素突出的单出杆电液伺服系统控制的研究较少。

技术实现思路

1、本专利技术的目的在于提供一种能够降低单出杆电液伺服系统控制器的稳态跟踪误差、提高跟踪精度、能够在强扰工况下自适应进行稳态跟踪的控制方法。

2、实现本专利技术目的的技术解决方案为：一种电液伺服系统强化学习控制方法，包括以下步骤：

3、步骤1、建立单出杆电液位置伺服系统的数学模型；

4、步骤2、基于多层前馈神经网络，构建执行神经网络估计器，对单出杆电液伺服系统受到的匹配以及非匹配未知函数扰动进行估计；

5、步骤3、建立基于执行神经网络估计器的扰动观测器，对单出杆电液伺服系统的匹配和非匹配时变外干扰进行估计；

6、步骤4、构建面向模型不确定性补偿的单出杆电液伺服系统强化学习控制算法；

7、步骤5、确定执行-评判神经网络自适应律；

8、步骤6、选取神经网络权值参数的初始值及自适应律矩阵以及控制器参数，实现系统模型不确定性的补偿，使系统的输出跟踪期望的控制目标。

9、进一步地，步骤1所述的建立单出杆电液位置伺服系统的数学模型，具体如下：

10、定义状态矢量其中σ1、σ2、σ3为矢量中的元素，m为负载的质量，y为负载的位移，为负载的速度，p1、p2分别为液压缸无杆腔、有杆腔的油压，a1、a2分别为液压缸无杆腔、有杆腔活塞杆的有效作用面积，则系统非线性模型的状态空间形式为：

11、

12、式中，u为系统的控制输入电压；

13、其他各部分表达式如下所示：

14、

15、式中，βe为液压油弹性模量；v1、v2分别为液压缸无杆腔、有杆腔的容积；f1(σ2)、为与系统状态有关的未知函数；d1(t)、p1(t)、p2(t)为时变外干扰；为伺服阀总的流量增益，其中cq1、cq2分别为无杆腔、有杆腔伺服阀节流孔流量系数，wq1、wq2分别为无杆腔、有杆腔节流孔面积梯度，kq1、kq2分别为无杆腔、有杆腔伺服阀阀芯位移流量增益；s(u)＝(1+tanh(ksu))/2，tanh(·)为双曲正切函数，ks为正常数；ps为系统的油源压力，pr为系统回油压力；

16、设定代表•的估计值，表示•的估计误差；·min和·max分别表示•的最小值和最大值；变量•i中的下标i取值为1、2、3；变量·j中的下标j取值为2、3。

17、进一步地，步骤2所述的基于多层前馈神经网络，构建执行神经网络估计器，对单出杆电液伺服系统受到的匹配以及非匹配未知函数扰动进行估计，具体如下：

18、对任意光滑未知函数f(σ2)以及g(σ2,p1,p2)，满足：

19、

20、式中，和为有界常值理想权值矩阵，m1、n1、m2、n2、m和n为神经元的数量；为输入矢量且表示激活函数；表示函数重构误差；

21、由公式(3)得：

22、

23、

24、进一步地，步骤3所述的建立基于执行神经网络估计器的扰动观测器，对单出杆电液伺服系统的匹配和非匹配时变外干扰进行估计，具体如下：

25、步骤3.1、将分别扩张为冗余状态，即令冗余状态σd2和σd3分别为

26、步骤3.2、根据扩张后的结果及公式(1)，结合执行神经网络估计器设计扰动观测器为：

27、

28、式中，ωo2、ωo3为可调的正增益。

29、进一步地，步骤4所述的构建面向模型不确定性补偿的单出杆电液伺服系统强化学习控制算法，具体如下：

30、步骤4.1、定义ε1＝σ1-σ1d为系统的跟踪误差，并定义ε2和ε3为：

31、ε2＝σ2-β1f,ε3＝σ3-β2f (6)

32、式中，β1f和β2f分别为虚拟控制律β1和β2的滤波值，通过以下滤波器得到：

33、

34、式中，β(j-1)df为虚拟控制律βj-1的一阶导数的滤波值；

35、步骤4.2、定义矢量e＝[e1,e2,e3]t＝[ε1-γ1,ε2-γ2,ε2-γ3]t，其中γi为辅助变量且其由以下辅助系统产生：

36、

37、式中，k1、k2和k3为可调的正增益；

38、步骤4.3、设计虚拟控制律β1、β2以及实际控制律u为：

39、

40、式中，和为评判神经网络的有界常值理想权值矩阵，强化信号矢量

41、进一步地，步骤5所述的确定执行-评判神经网络自适应律，具体如下：

42、步骤5.1、设计执行神经网络自适应律，多层前馈神经网络的权值参数通过下式更新：

43、

44、式中，proj(•本文档来自技高网...

【技术保护点】

1.一种电液伺服系统强化学习控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种电液伺服系统强化学习控制方法，其特征在于，步骤1所述的建立单出杆电液位置伺服系统的数学模型，具体如下：

3.根据权利要求2所述的一种电液伺服系统强化学习控制方法，其特征在于，步骤2所述的基于多层前馈神经网络，构建执行神经网络估计器，对单出杆电液伺服系统受到的匹配以及非匹配未知函数扰动进行估计，具体如下：

4.根据权利要求3所述的一种电液伺服系统强化学习控制方法，其特征在于，步骤3所述的建立基于执行神经网络估计器的扰动观测器，对单出杆电液伺服系统的匹配和非匹配时变外干扰进行估计，具体如下：

5.根据权利要求4所述的一种电液伺服系统强化学习控制方法，其特征在于，步骤4所述的构建面向模型不确定性补偿的单出杆电液伺服系统强化学习控制算法，具体如下：

6.根据权利要求5所述的一种电液伺服系统强化学习控制方法，其特征在于，步骤5所述的确定执行-评判神经网络自适应律，具体如下：

7.根据权利要求6所述的一种电液伺服系统强化学习控制

...

【技术特征摘要】

1.一种电液伺服系统强化学习控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种电液伺服系统强化学习控制方法，其特征在于，步骤1所述的建立单出杆电液位置伺服系统的数学模型，具体如下：

4.根据权利要求3所述的一种电液伺服系统强化学习控制方法，其特征在于，步骤3所述的建立基于执行神经网络估计器的扰...

【专利技术属性】
技术研发人员：杨贵超，石志颖，
申请(专利权)人：南京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人