一种基于安全强化学习的直升机智能减振方法技术

技术编号：40781640 阅读：6 留言：0更新日期：2024-03-25 20:26

本发明专利技术公开了一种基于安全强化学习的直升机智能减振方法，涉及直升机主动减振控制技术领域，包括以下步骤：S1：设计复杂环境下的直升机动态振动模型；S2：设计动态安全函数；S3：设计安全强化学习控制方法。本发明专利技术采用上述的一种基于安全强化学习的直升机智能减振方法，考虑综合扰动和飞行条件的情况下，通过对未来飞行条件的预测以及自适应参数调节实现稳定、智能、安全减振控制，解决减振控制方法的鲁棒性较低、安全考虑不足、参数调节困难等问题，弥补现有方法的不足。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及直升机主动减振控制，尤其是涉及一种基于安全强化学习的直升机智能减振方法。

技术介绍

1、直升机在民用、军事和救援等领域发挥着重要作用，其独特的旋翼结构使其能够进行灵活机动飞行并承担重型货物运输任务。然而，在直升机工作过程中，由于其主旋翼旋转和机身前飞会引起不同程度的气动载荷变化，导致桨叶在不同方位角和展向位置的载荷不平衡，从而汇聚到桨毂引起机身振动，这种由于载荷不平衡主引发的振动也是直升机前飞时机身振动的最主要来源。由于直升机的工作特点包括不同飞行状态的切换、未知的机动情况以及有限的机上计算资源。这些特点决定了直升机主动振动控制方法需要满足一般振动控制的稳定性和鲁棒性要求，同时还必须具备对不同飞行情况的适应性、机动情况的预测能力以及在线自适应调整的能力。目前，现有的直升机振动控制方法主要针对典型的稳定飞行状态进行设计。然而，在直升机工作过程中，由于驾驶员可能根据任务需要调整前进比以改变前飞速度，导致两个稳定飞行状态之间的过渡状态。在巡航任务中，会根据任务需求不断交替出现过渡状态和稳定状态。对于这种变速飞行环境，传统的振动控制方法可能失效。

2、然而，除直升机变速飞行带来的影响外，随着各类弹性材料和非线性压电材料的应用，直升机模型本身也包括建模准确度低、高阶弹性项忽略等问题，此外，还需要进一步考虑飞行过程中阵风扰动或传感器测量误差等问题，这也要求减振控制方法在自适应调整控制参数的基础上还需要具有鲁棒稳定性。目前，针对变速直升机减振问题，基于线性变参数的控制方法应用最为广泛，通过将不同的飞行速度划分为不同的

3、然而，基于现有理论方法进行直升机减振控制器设计时，存在的不足主要体现在以下几个方面：(1)现有的线性参数时变减振控制方法十分依赖模型的准确程度，当直升机振动响应模型存在包括为建模动态、外界扰动和测量误差在内的综合不确定时，减振控制效果会受到较大影响。(2)现有的减振控制均没有考虑直升机在在线变速飞行环境下的振动控制安全性，在实际的振动控制过程中，由于主动控制执行器的物理限制、系统稳定性要求、减振性能要求等综合约束的存在，为了实现在线参数自适应，减振控制方法必须考虑在变速飞行下减振控制的安全可靠性。(3)现有的传统减振方法均需要在离线设计过程中考虑直升机可能出现的所有状态组合，并根据经验人为进行大量参数的设置和调节，如线性变参数方法需要提前预知直升机前进比变化的规律并进行对应设计，混合灵敏度的h无穷方法中需要手动调节期望带宽、稳定裕度以及鲁棒性相关参数并计算范数集合等，这在实际应用中通常难以实现，增加了现场修改和调试的困难性。

4、因此，有必要提供一种基于安全强化学习的直升机智能减振方法，来解决上述问题。

技术实现思路

1、本专利技术的目的是提供一种基于安全强化学习的直升机智能减振方法，考虑综合扰动和飞行条件的情况下，通过对未来飞行条件的预测以及自适应参数调节实现稳定、智能、安全减振控制，解决减振控制方法的鲁棒性较低、安全考虑不足、参数调节困难等问题，弥补现有方法的不足。

2、为实现上述目的，本专利技术提供了一种基于安全强化学习的直升机智能减振方法，包括以下步骤：

3、s1：设计复杂环境下的直升机动态振动模型；

4、s2：设计动态安全函数；

5、s3：设计安全强化学习控制方法。

6、优选的，在步骤s1中，针对实验直升机无控状态下测量振动载荷为：

7、d(t)＝d1(t)cos(nωt)+d2(t)sin(nωt) (1)

8、其中，d(t)表示直升机的无控振动载荷，d1(t)和d2(t)分别表示d(t)的cos和sin分量幅值的负数，n表示直升机旋翼的叶片数，ω表示当前转子转速；

9、对d(t)进行傅里叶分解得到d1(t)和d2(t)，襟翼偏角u(t)以及产生的桨毂响应y(t)为：

10、

11、其中，u1(t)和u2(t)分别表示襟翼偏角的cos和sin分量幅值，y1(t)和y2(t)分别表示桨毂响应的cos和sin分量幅值，n表示直升机旋翼的叶片数，ω表示当前转子转速；

12、直升机主动减振控制的原理是由主动控制产生的桨毂响应y(t)与无控振动载荷d(t)进行抵消，由于谐波的阶次相同，模型的拟合误差和未建模动态组成的综合不确定对公式(1)和公式(2)进行傅里叶分解，则桨毂垂向力z(t)表示为时域状态空间形式：

13、

14、其中，u(t)＝[u1(t) u2(t)]t，z(t)＝[z1(t) z2(t)]t，dμ(t)＝[d1(t) d2(t)]t，aμ,bμ,cμ,dμ矩阵的具体数值由实验数据拟合得出，x(t)表示由桨叶挥舞、滞后和扭转模态组成的高阶模态，u(t)表示襟翼偏角谐波，表示由桨叶挥舞、滞后和扭转模态组成的高阶模态的导数，dμ(t)表示无控振动载荷谐波；

15、由于公式(3)通过参数拟合得到，会存在一定的拟合误差，所以将公式(3)改写为：

16、

17、其中δaμ表示由于模型的拟合误差和未建模动态组成的综合不确定，ξ(t)表示由外界阵风和无控振动载荷波动组成的综合扰动。

18、优选的，在步骤s2中，强化学习过程中，智能体和环境相互作用，交互过程由马尔可夫决策过程来描述，马尔可夫决策过程一般由五元组(s,a,p,r,γ)来描述，其中s表示状态空间，a表示动作空间，p表示状态转移矩阵，r表示奖励函数，描述在状态st下执行at的期望奖励，γ∈[0,1)是折扣因子；

19、为构建马尔可夫决策过程，针对动态环境中的直升机振动控制问题，将向量定义为时刻马尔可夫决策过程的状态：

20、

21、其中z(t)表示桨毂垂向力，d(·)表示(·)的微分，dz(t)表示z(t)的微分，代表振动输出的变化率，du(t)表示u(t)的微分，代表襟翼偏角谐波的变化率；

22、针对所建立的带后缘襟翼的直升机旋翼动态振动模型，控制器解算出的谐波分量会经过谐波合成模块作用于旋翼系统中，实现振动控制。将向量at定义为t时刻马尔可夫决策过程的动作：

23、

24、其中u1(t)和u2(t)分别表示襟翼偏角的cos和sin分量幅值；

25、st+1＝f(st)+g(st)at (7)

26、其中f表示系统从当前状态st转换到下一时刻状态st+1的关系，g表示控制输入at对于下一时刻状态量st+1的影响；

27、通过函数定义一个安全集c：

28、

29、如果h满足以下不等式，则称h为离散动态系统c的动态安全函数：

30、δh(s)≥-ηh(s),0＜η≤1 (9)

31、其中η表示将状态强制置于安全集内的强度；通过公式(7本文档来自技高网...

【技术保护点】

1.一种基于安全强化学习的直升机智能减振方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于安全强化学习的直升机智能减振方法，其特征在于：在步骤S1中，针对实验直升机无控状态下测量振动载荷为：

3.根据权利要求1所述的一种基于安全强化学习的直升机智能减振方法，其特征在于：在步骤S2中，强化学习过程中，智能体和环境相互作用，交互过程由马尔可夫决策过程来描述，马尔可夫决策过程一般由五元组(S,A,P,R,γ)来描述，其中S表示状态空间，A表示动作空间，P表示状态转移矩阵，R表示奖励函数，描述在状态st下执行at的期望奖励，γ∈[0,1)是折扣因子；

4.根据权利要求3所述的一种基于安全强化学习的直升机智能减振方法，其特征在于：在步骤S3中，定义不安全状态的标签为ct＝-1，安全状态的标签为ct＝1，则经验回放缓冲池D存储的信息为：(s,asafe,s+1,rt,c)，分别为当前状态st、当前经过动态安全函数调整后的安全动作asafe，下一时刻状态st+1，即时奖励rt和标签ct，基于最大熵强化学习理论，安全强化控制器的最优策略定义为：

...

【技术特征摘要】

1.一种基于安全强化学习的直升机智能减振方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于安全强化学习的直升机智能减振方法，其特征在于：在步骤s1中，针对实验直升机无控状态下测量振动载荷为：

3.根据权利要求1所述的一种基于安全强化学习的直升机智能减振方法，其特征在于：在步骤s2中，强化学习过程中，智能体和环境相互作用，交互过程由马尔可夫决策过程来描述，马尔可夫决策过程一般由五元组(s,a,p,r,γ)来描述，其中s表示状态空间，a表示动作空间，p表示状...

【专利技术属性】
技术研发人员：张秀云，陈钰，宗群，杨昊，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人