基于安全强化学习的高超声速飞行器零和博弈方法技术

技术编号：39569127 阅读：14 留言：0更新日期：2023-12-03 19:19

本发明专利技术适用于飞行器控制技术领域，提供了利用安全强化学习方法解决高超声速飞行器的零和博弈方法，所述方法包括：首先，建立高超声速飞行器纵向动力学模型，并化简为一般的仿射非线性系统模型；其次，提出了一种基于障碍函数的系统变换，将全状态安全约束问题转化为无约束零和博弈问题；然后，采用安全强化学习方法在执行

全部详细技术资料下载

【技术实现步骤摘要】
基于安全强化学习的高超声速飞行器零和博弈方法

[0001]本专利技术属于计算机
，尤其涉及基于安全强化学习的高超声速飞行器零和博弈方法
。

技术介绍

[0002]在可预见的未来，空间资源的开发和保护具有至关重要的战略意义
。
近年来，高超声速飞行器由于其在飞行速度
、
突防能力和成本效益方面对民用和军事应用的重要意义而引起了相当大的关注
。
飞行器的关键技术之一是控制器的设计，其设计直接影响飞行器的飞行性能
。
与传统飞机不同的是，超燃冲压发动机的使用和发动机
‑
机身一体化的结构使得高超声速飞行器的推进系统和气动系统之间具有很强的耦合性
。
此外，系统的强非线性
、
气动参数的不确定性和静态不稳定性等特点对控制器的设计提出了巨大的挑战
。
近几十年来，人们对高超声速飞行器的飞行控制设计进行了各种有效的研究，主要有
PID
控制
、
滑模控制
、
反演控制
、
动态逆设计
、
智能控制等
。
值得一提的是，任何实际的高超声速飞行器的控制设计都不应该忽视高超声速飞行器的安全方面，比如全状态约束
。
[0003]考虑到高超声速飞行和超燃冲压发动机机动性能的物理约束，实际飞行状态变量既有下限约束，也有上限约束，违反这些约束可能会降低系统性能，甚至危及飞行安全
。r/>因此，为了保证飞行安全，在高超声速飞行器控制器设计过程中应进一步考虑全状态约束
。
[0004]另一方面，在实际应用中，仅考虑闭环稳定性仍然是不够的，不能忽略最优性的讨论
。
最优控制理论的核心是非线性系统的哈密尔顿
‑
雅可比
‑
贝尔曼方程或哈密尔顿
‑
雅可比
‑
埃萨克斯方程，它们是最优性条件的充要条件
。
然而，由于固有的非线性，用解析方法求解上述方程是非常困难的
。
因此，强化学习用来解决这个难题，以在线的方式逼近非线性哈密尔顿
‑
雅可比方程的解
。
博弈论和
H
∞
解依赖于求解哈密尔顿
‑
雅可比
‑
艾萨克斯方程
。
从极大极小优化问题的观点来看，
H
∞
控制问题可以表述为二人零和博弈，其中控制输入是一个最小化的玩家，而扰动是一个最大化的玩家
。

技术实现思路

[0005]本专利技术实施例的目的在于提供一种通用的数据文件批量智能处理方法，旨在解决上述
技术介绍
中提出的问题
。
[0006]本专利技术的基于安全强化学习的高超声速飞行器零和博弈方法，包括如下具体步骤：
[0007]步骤1：建立高超声速飞行器纵向动力学模型；
[0008]步骤2：将高超声速飞行器纵向动力学模型化简为仿射非线性系统模型；
[0009]步骤3：基于障碍函数的系统变换，将高超声速飞行器纵向动力学的全状态安全约束问题转化为无约束零和博弈问题；
[0010]步骤4：采用安全强化学习方法在执行
‑
评价
‑
扰动框架下学习零和博弈问题的最优控制策略和最差扰动策略；
[0011]步骤5：采用了梯度下降法和经验回放技术更新网络权值并对闭环系统中所有信号进行稳定性分析
。
[0012]进一步的
,
步骤1中建立高超声速飞行器纵向动力学模型为：
[0013][0014]其中，
V
，
h
，
γ
，
α
，
Q
分别表示飞行器的速度，高度，航迹角，攻角以及俯仰角速度，
m
为飞行器质量，
I
yy
为转动惯量，
g
为重力加速度，
ζ
i
为阻尼比，
ω
i
为柔性模态频率，
η
i
为第
i
个弯曲模态的振幅，
L
，
D
，
T
，
M
，
N
i
分别表示升力，阻力，推力，俯仰力矩，广义弹性力，表达式为：
[0015][0016]其中，
S
，
z
T
，为飞行动压，参考面积，推力力臂，平均空气动力弦长
。
并且
(2)
式中的参数拟合形式为
[0017][0018][0019][0020][0021][0022][0023][0024]其中，
Φ
，
δ
e
分别为燃料当量比，升降舵偏转角，皆为系统的输入
。
为升力系数，为阻力系数，为力矩系数，为推力系数
。
[0025]进一步的
,
步骤2中将高超声速飞行器纵向动力学模型化简为一般的仿射非线性
系统模型
,
具体为
:
将高超声速飞行器纵向动力学模型分解为速度子系统与高度子系统，并进一步化简为一般的仿射非线性系统模型
。
[0026]将速度子系统化简为：
[0027]其中，
[0028][0029][0030][0031]其中，
Δ
V
表示速度子系统中气动系数的不确定性和外部干扰所引起的扰动，
[0032]将高度子系统化简为：
[0033][0034]其中，
[0035][0036][0037][0038][0039]其中，
Δ
γ
，
Δ
α
，
Δ
Q
表示高度子系统中气动系数的不确定性和外部干扰所引起的扰动；
[0040]不失一般性，速度子系统和高度子系统可以归纳为仿射非线性系统模型
,
如下
:
[0041][0042]其中，对于速度子系统，
x
＝
x
V
＝
V
是速度子系统的状态；
u
＝
Φ
是速度子系统的控制输入；
d
＝
d
V
是集中扰动；
f(x)
＝
f
V
和
g(x)
＝
g
V
是李普希兹连续函数
。
[0043]对于高度子系统，
x
＝
[x
h
,x
γ
,x
α
,x<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
基于安全强化学习的高超声速飞行器零和博弈方法，其特征在于，所述方法包括：步骤1：建立高超声速飞行器纵向动力学模型；步骤2：将高超声速飞行器纵向动力学模型化简为仿射非线性系统模型；步骤3：基于障碍函数的系统变换，将高超声速飞行器纵向动力学的全状态安全约束问题转化为无约束零和博弈问题；步骤4：采用安全强化学习方法在执行
‑
评价
‑
扰动框架下学习所述零和博弈问题的最优控制策略和最差扰动策略；步骤5：采用了梯度下降法和经验回放技术更新网络权值并对闭环系统中所有信号进行稳定性分析
。2.
据权利要求1所述基于安全强化学习的高超声速飞行器零和博弈方法，其特征在于，所述步骤1中，建立高超声速飞行器纵向动力学模型为：其中，
V
，
h
，
γ
，
α
，
Q
分别表示飞行器的速度，高度，航迹角，攻角以及俯仰角速度，
m
为飞行器质量，
I
yy
为转动惯量，
g
为重力加速度，
ζ
i
为阻尼比，
ω
i
为柔性模态频率，
η
i
为第
i
个弯曲模态的振幅，
L
，
D
，
T
，
M
，
N
i
分别表示升力，阻力，推力，俯仰力矩，广义弹性力，表达式为：其中，
S
，
z
T
，为飞行动压，参考面积，推力力臂，平均空气动力弦长，并且式
(2)
中的参数拟合形式为参数拟合形式为参数拟合形式为参数拟合形式为参数拟合形式为
其中，
Φ
，
δ
e
分别为燃料当量比，升降舵偏转角，皆为系统的输入，为升力系数，为阻力系数，为力矩系数，为推力系数
。3.
根据权利要求1所述基于安全强化学习的高超声速飞行器零和博弈方法，其特征在于，所述步骤2中，将高超声速飞行器纵向动力学模型分解为速度子系统与高度子系统，并进一步化简为仿射非线性系统模型，具体包括：将速度子系统化简为：其中，其中，其中，其中，
Δ
V
表示速度子系统中气动系数的不确定性和外部干扰所引起的扰动，将高度子系统化简为：其中，其中，
g
α
＝
1,1,1,
其中，
Δ
γ
，
Δ
α
，
Δ
Q
表示高度子系统中气动系数的不确定性和外部干扰所引起的扰动；不失一般性，速度子系统和高度子系统归纳为仿射非线性系统模型
,
如下
:
其中，对于速度子系统，
x
＝
x
V
＝
V
是速度子系统的状态；
u
＝
Φ
是速度子系统的控制输入；
d
＝
d
V
是集中扰动；
f(x)
＝
f
V
和
g(x)
＝
g
V
是李普希兹连续函数；
对于高度子系统，
x
＝
[x
h
,x
γ
,x
α
,x
Q
]
T
＝
[h,
γ
,
α
,Q]
T
是高度子系统的状态；
u
＝
δ
e
是高度子系统的控制输入；
f(x)
＝
[f
h
(x),f
γ
(x),f
α
(x),f
Q
(x)]
T
＝
[V
γ
,f
γ
+g
γ
α
,f
α
+g
α
Q,f
Q
]
T
和
g(x)
＝
[g
h
(x),g
γ
(x),g
α
(x),g
Q
(x)]
T
＝
[0,0,0,g
Q
]
T
是李普希兹连续函数；
d
＝
[0,d
γ
,d
α
,d
Q
]
T
是集中扰动
。4.
根据权利要求3所述基于安全强化学习的高超声速飞行器零和博弈方法，其特征在于，所述步骤3中，将高超声速飞行器纵向动力学的全状态约束在安全区域内，即具有全状态约束的高超声速飞行器的安全控制问题，描述如下：问题1：考虑仿射非线性系统模型
(3)
，状态
x
＝
[x1,...,x
n
]
T
满足下列约束
x
i
∈(s
i
,S
i
),i
＝
1,...,n,
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
其中，
s
i
<0
，
S
i
>0
，找到策略
u:R
n
→
R
m
，使得对仿射非线性系统模型
(3)
具有小于或等于
γ
的
L2增益，即其中，
U(x,u)
是正定函数；在此基础上，提出了基于障碍函数的系统变换，将给出的具有非对称的全状态约束的安全控制问题转化为无约束稳定性问题，具体描述如下：定义
1,
障碍函数：定义在
(s0,S0)
上的函数
ζ
(
·
)
是障碍函数，如果有其中，
s0和
S0是满足
s0<0<S0的两个常数，此外，障碍函数在区间
(s0,S0)
上是可逆的，即并有考虑仿射非线性系统模型
(3)
，定义基于障碍函数的状态转换如下：那么，根据定义1，下式成立
其中，其中，其中，因此，变换后的变量
δ
＝
[
δ1,...,
δ
n
]
T
所满足的动力学表示为其中，
F(
δ
)
＝
[F1(
δ
),...,F
n
(
δ
)]
T
,G(
δ
)
＝
[0,...,0,g
n
(
δ
)]
T
,K(
δ
)
＝
[K1(
δ
),...,K
n
(
δ
)]
T
.
假设1：动力学系统
(7)
满足：
1)F(
δ
)
是李普希兹的，
F(0)
＝0，对
δ
∈
Ω
δ
，存在常数
f
m
使得
||F(
δ
)||≤f
m
||
δ
||
，其中，
Ω
δ
是包含原点的紧集；
2)G(
δ
)
和
K(
δ
)
在
Ω
δ
上是有界的，即存在常数
b
g
和
b
K
使得
||G(
δ
)||≤b
g
，
||K(
δ
)||≤b
K
；
3)
在紧集
Ω
δ
上，动力学系统
(7)
是可控的；在前述中，引入障碍函数，将高超声速飞行器的仿射非线性系统模型
(3)
转化为等价动力学系统
(7)
，下面，考虑问题1...

【专利技术属性】
技术研发人员：程玉虎，史蕾，王雪松，
申请(专利权)人：中国矿业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人