基于安全强化学习的高超声速飞行器最优控制方法技术

技术编号:37331125 阅读:24 留言:0更新日期:2023-04-21 23:08
本发明专利技术适用于飞行器控制技术领域,提供了一种基于安全强化学习的高超声速飞行器最优控制方法,首先,建立高超声速飞行器纵向动力学模型,并化简为一般的仿射非线性系统模型;其次,提出了一种基于障碍函数的系统变换,将全状态安全约束问题转化为无约束优化问题;然后,采用安全强化学习算法在执行

【技术实现步骤摘要】
基于安全强化学习的高超声速飞行器最优控制方法


[0001]本专利技术涉及飞行器控制
,具体涉及一种基于安全强化学习的高超声速飞行器最优控制方法。

技术介绍

[0002]高超声速飞行器是速度大于5马赫的飞行器,这也被认为是确保成本效益和可靠进入空间的最优前途的技术之一。由于其巨大的军事和民用价值,高超声速飞行器正成为各军事强国的焦点。与传统飞行器相比,高超声速飞行器的特性受到复杂飞行环境的影响,大气和气动特性的预测也存在很大的问题。尽管一些高超声速飞行器已经成功飞行,包括NASA X

43A和X

51A实验飞行器,但是由于推进系统、空气动力学和结构动力学之间相互作用的复杂性,为高超声速飞行器设计一个鲁棒和高效的飞行控制方案仍然是一个具有挑战性的问题。
[0003]关于高超声速飞行器一些常用的控制方案,例如:滑模控制、反步控制、模糊控制、基于线性二次调节器的控制、线性参数变化控制、动态面控制和神经网络控制等等,尽管已经研究了这些非线性控制方案,并取得了许多有意义的成果,但大多数现有的方法通常开发具有固定参数和已知系统模型的控制器。即在参数不确定和环境干扰条件下,现有的大多数非线性控制方案都没有解决高超声速飞行器的自适应控制问题。为高超声速飞行器提供一种基于计算智能的在线学习控制方案,将学习和适应能力融合到飞行控制器中,是一种更有前途的控制方案。
[0004]另一方面,在实际应用中,飞行器飞行过程中的安全问题也是不可忽视的关键问题。在安全关键应用中,控制器设计的一个基本问题是被控系统的能力,不仅实现安全和稳定性,而且满足自定义的性能。在实践中,由于机身和推进系统之间的非线性耦合效应,为了维持超燃冲压发动机的预期运行,高超声速飞行器的状态应该始终在约束的范围内。同时,还应限制俯仰速率,以防止高超声速引起的剧烈震动。因此,在设计高超声速飞行器自适应在线学习控制方案时,应进一步考虑全状态约束。

技术实现思路

[0005]本专利技术实施例的目的在于提供一种基于安全强化学习的高超声速飞行器最优控制方法,属于在线学习的控制方法,可以同时保证飞行器在飞行过程中状态的安全性。
[0006]本专利技术实施例是这样实现的,一种基于安全强化学习的高超声速飞行器最优控制方法,包括如下具体步骤:
[0007]步骤1,建立高超声速飞行器纵向动力学模型。
[0008]建立高超声速飞行器纵向动力学模型为:
[0009][0010]其中,V,h,γ,α,Q分别表示飞行器的速度,高度,航迹角,攻角以及俯仰角速度,m为飞行器质量,I
yy
为转动惯量,g为重力加速度,ζ
i
为阻尼比,ω
i
为柔性模态频率,η
i
为第i个弯曲模态的振幅,L,D,T,M,N
i
分别表示升力,阻力,推力,俯仰力矩,广义弹性力,表达式为:
[0011][0012]其中,为飞行动压,参考面积,推力力臂,平均空气动力弦长。并且(2)式中的参数拟合形式为
[0013][0014]其中,Φ,δ
e
分别为燃料当量比,升降舵偏转角,皆为系统的输入。分别为燃料当量比,升降舵偏转角,皆为系统的输入。为升力系数,为阻力系数,,为力矩系数,为力矩系数,为推力系数。
[0015]步骤2,将高超声速飞行器纵向动力学模型化简为一般的仿射非线性系统模型。
[0016]将高超声速飞行器的纵向动力学模型分解为速度子系统与高度子系统,并进一步化简为一般的仿射非线性系统模型。
[0017]将速度子系统化简为:
[0018]其中,
[0019][0020]其中,Δ
V
表示速度子系统中气动系数的不确定性和外部干扰所引起的扰动。
[0021]将高度子系统化简为:
[0022][0023]其中,
[0024][0025]其中,Δ
γ
,Δ
α
,Δ
Q
表示高度子系统中气动系数的不确定性和外部干扰所引起的扰动。
[0026]不失一般性,速度子系统和高度子系统可以归纳为
[0027][0028]其中,对于速度子系统,x=x
V
=V是速度子系统的状态。u=Φ是速度子系统的控制输入。f(x)=f
V
和g(x)=g
V
是李普希兹连续函数。
[0029]对于高度子系统,x=[x
h
,x
γ
,x
α
,x
Q
]T
=[h,γ,α,Q]T
是高度子系统的状态。u=δ
e
是高度子系统的控制输入。
[0030]f(x)=[f
h
(x),f
γ
(x),f
α
(x),f
Q
(x)]T
=[Vγ,f
γ
+g
γ
α,f
α
+g
α
Q,f
Q
]T

[0031]g(x)=[g
h
(x),g
γ
(x),g
α
(x),g
Q
(x)]T
=[0,0,0,g
Q
]T
是李普希兹连续函数。
[0032]步骤3,提出一种基于障碍函数的系统变换,将全状态安全约束问题转化为无约束优化问题。
[0033]将高超声速飞行器纵向动力学的全状态约束在安全区域内,即具有全状态约束的高超声速飞行器的安全控制问题。描述如下:
[0034]问题1(具有全状态约束的安全控制问题):
[0035]考虑系统(3),找到控制策略u,对于每个x(0),在状态约束x
i
∈(a
i
,b
i
),i=V,h,
γ,α,Q下使得代价函数
[0036][0037]最小化,其中a
i
<0,b
i
>0,U(x,u)=Γ(x)+u
T
Ru,Γ(x)是正定函数,R是正定对称矩阵。
[0038]在此基础上,提出了基于障碍函数的系统变换,将给出的具有非对称的全状态约束的安全控制问题转化为稳定性问题,具体描述如下:
[0039]定义1(障碍函数):定义在(a,b)上的函数是障碍函数如果有
[0040][0041]其中,a和b是满足a<0<b的两个常数。此外,障碍函数在区间(a,b)上是可逆的,即
[0042][0043]并有
[0044]考虑系统(3),定义基于障碍函数的状态转换如下:
[0045][0046]那么,
[0047]根据定义1,下式成立
[0048][0049]其中,
[0050][0051]因此,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于安全强化学习的高超声速飞行器最优控制方法,包括,其特征在于,所述方法包括:步骤1:建立高超声速飞行器纵向动力学模型;步骤2:将高超声速飞行器纵向动力学模型化简为仿射非线性系统模型;步骤3:基于障碍函数的系统变换,将全状态安全约束问题转化为无约束优化问题;步骤4:采用安全强化学习算法在执行

评价框架下设计优化控制器;步骤5:引入一种鲁棒项来补偿由执行

评价框架引入的神经网络逼近误差,设计基于安全强化学习的鲁棒近似最优控制器并分析稳定性。2.根据权利要求1所述的基于安全强化学习的高超声速飞行器最优控制方法,其特征在于,所述步骤1中,高超声速飞行器纵向动力学模型为:高超声速飞行器纵向动力学模型为:高超声速飞行器纵向动力学模型为:高超声速飞行器纵向动力学模型为:高超声速飞行器纵向动力学模型为:高超声速飞行器纵向动力学模型为:其中,V,h,γ,α,Q分别表示飞行器的速度,高度,航迹角,攻角以及俯仰角速度,m为飞行器质量,I
yy
为转动惯量,g为重力加速度,ζ
i
为阻尼比,ω
i
为柔性模态频率,η
i
为第i个弯曲模态的振幅,L,D,T,M,N
i
分别表示升力,阻力,推力,俯仰力矩,广义弹性力,表达式为:其中,S,z
T
,为飞行动压,参考面积,推力力臂,平均空气动力弦长,并且(2)式中的参数拟合形式为参数拟合形式为参数拟合形式为参数拟合形式为
其中,Φ,δ
e
分别为燃料当量比,升降舵偏转角,皆为系统的输入,皆为系统的输入,为升力系数,为阻力系数,为阻力系数,为力矩系数,系数,为推力系数。3.根据权利要求1所述的基于安全强化学习的高超声速飞行器最优控制方法,其特征在于,所述步骤2中,将高超声速飞行器的纵向动力学模型分解为速度子系统与高度子系统,并进一步化简为仿射非线性系统模型具体包括:将速度子系统化简为:其中,,式中,Δ
V
表示速度子系统中气动系数的不确定性和外部干扰所引起的扰动,将高度子系统化简为:其中,其中,其中,其中,其中,其中,Δ
γ
,Δ
α
,Δ
Q
表示高度子系统中气动系数的不确定性和外部干扰所引起的扰动;速度子系统和高度子系统可以归纳为其中,对于速度子系统,x=x
V
=V是速度子系统的状态,u=Φ是速度子系统的控制输
入,f(x)=f
V
和g(x)=g
V
是李普希兹连续函数;对于高度子系统,x=[x
h
,x
γ
,x
α
,x
Q
]
T
=[h,γ,α,Q]
T
是高度子系统的状态;u=δ
e
是高度子系统的控制输入;f(x)=[f
h
(x),f
γ
(x),f
α
(x),f
Q
(x)]
T
=[Vγ,f
γ
+g
γ
α,f
α
+g
α
Q,f
Q
]
T
和g(x)=[g
h
(x),g
γ
(x),g
α
(x),g
Q
(x)]
T
=[0,0,0,g
Q
]
T
是李普希兹连续函数。4.根据权利要求3所述的基于安全强化学习的高超声速飞行器最优控制方法,其特征在于,所述步骤3中,所述将全状态安全约束问题转化为无约束优化问题具体包括:考虑系统(3),找到控制策略u,对于每个x(0),在状态约束x
i
∈(a
i
,b
i
),i=V,h,γ,α,Q下使得代价函数最小化,其中,a
i
<0,b
i
>0,U(x,u)=Γ(x)+u
T
Ru,Γ(x)是正定函数,R是正定对称矩阵;在此基础上,提出基于障碍函数的系统变换,将给出的具有非对称的全状态约束的安全控制问题转化为稳定性问题,具体包括以下步骤:问题1、具有全状态约束的安全控制问题:定义1:障碍函数:定义在(a,b)上的函数是障碍函数;如果有其中,a和b是满足a<0<b的两个常数,此外,障碍函数在区间(a,b)上是可逆的,即并有考虑系统(3),定义基于障碍函数的状态转换如下:那么,根据定义1,下式成立其中,
因此,变换后的变量z=[z1,...,z
n
]
T
所满足的动力学表示为其中,F(z)=[F1(z),...,F
n
(z)]
T
,G(z)=[0,...,0,g
n
(z)]
T
;假设1:系统(6)满足:F(z)是李普希兹的,F(0)=0,对z∈Ω
z
,存在常数f
m
使得||F(z)||≤f
m
||z||,其中,Ω
z
是包含原点的紧集;G(z)在Ω
z
上是有界的,即存在常数g
m
使得||G(z)||≤g
m
;在紧集Ω
z
上,系统(6)是可控的;在前述中,引入障碍函数,将系统(3)转化为等价系统(6),下面,我们引入一个新的问题,以解决问题1的全状态约束;问题2、找到控制策略u使得代价函数:最小化,其中r(z,u)=Q(z)+u
T
Ru为奖励函数,Q(z)=z
T
Qz,Q≥0.给定一个可容许控制策略u,定义哈密尔顿量为:H(z,u,

V(z))=r(z,u)+(

V(z))
T
[F(z)+G(z)u],其中,是梯度向量;然后,对代价函数V(z)求导得到贝尔曼方程为0=H(z,u,

V(z))=r(z,u)+(

V(z))
T
[F(z)+G(z)u].
ꢀꢀꢀꢀꢀꢀꢀꢀ
(8)考虑最优代价函数,表示为根据最优的必要条件可得最优控制策略u
*
为将最优控制策略代入到贝尔曼方程中,得到哈密尔顿

雅可比

贝尔曼方程假设2:对于可容许控制策略u,非线性李雅普诺夫方程(8)具有局部光滑解V(z)≥0,具有问题1和问题2等价的条件由以下引理给出:引理1:若假设1和假设2成立,并且控制策略解决系统(6)的问题2,则有以下结论成立:
1)只要系统(3)的初始状态x0∈(a
i
...

【专利技术属性】
技术研发人员:程玉虎史蕾王雪松
申请(专利权)人:中国矿业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1