当前位置: 首页 > 专利查询>中南大学专利>正文

基于深度强化学习的高超声速变外形飞行器姿态控制方法技术

技术编号:39894311 阅读:10 留言:0更新日期:2023-12-30 13:07
本公开实施例中提供了一种基于深度强化学习的高超声速变外形飞行器姿态控制方法,属于控制技术领域,具体包括:步骤1,建立飞行器的三自由度非线性再入姿态控制模型,化简模型并转化为状态空间模型;步骤2,根据状态空间模型设计飞行器的超螺旋控制器;步骤3,定义马尔可夫决策过程,将姿态控制问题转化为深度强化学习模型;步骤4,在传统

【技术实现步骤摘要】
基于深度强化学习的高超声速变外形飞行器姿态控制方法


[0001]本公开实施例涉及控制
,尤其涉及一种基于深度强化学习的高超声速变外形飞行器姿态控制方法


技术介绍

[0002]目前,高超声速变外形飞行器是一类飞行速度大于5马赫,在大气层内或跨大气层高速飞行的飞行器,其可根据不同环境和任务需求改变自身的外形结构,具有飞行速度快,飞行距离远,任务可调整的特点

与传统的高超声速飞行器相比,高超声速变外形飞行器在姿态控制中主要存在以下突出问题:变形过程中,飞行器系统呈现出多模态

强非线性和强耦合的特点;飞行器系统存在外部干扰和模型不确定性,难以建立精确的动力学模型,保证系统的稳定性

同时,高超声速变外形飞行器具有的大尺度变形结构特点,为飞行器多模态飞行时的气动稳定性提出了更高的要求

[0003]高超声速变外形飞行器具备一定的特殊性,传统的控制方法难以满足较高的稳定性

鲁棒性和控制精度的要求

[0004]可见,亟需一种稳定性

鲁棒性和控制精准度高的基于深度强化学习的高超声速变外形飞行器姿态控制方法


技术实现思路

[0005]有鉴于此,本公开实施例提供一种基于深度强化学习的高超声速变外形飞行器姿态控制方法,至少部分解决现有技术中存在稳定性

鲁棒性和控制精准度较差的问题

[0006]本公开实施例提供了一种基于深度强化学习的高超声速变外形飞行器姿态控制方法,包括:
[0007]步骤1,建立飞行器的三自由度非线性再入姿态控制模型,化简模型并转化为状态空间模型;
[0008]步骤2,根据状态空间模型设计飞行器的超螺旋控制器;
[0009]步骤3,定义马尔可夫决策过程,将姿态控制问题转化为深度强化学习模型;
[0010]步骤4,在传统
TD3
算法基础上,建立双经验回放池,并分别在执行网络和评价网络中引入
LSTM
网络架构,对该深度强化学习模型进行离线训练,利用训练好的决策模型进行参数的自适应调整

[0011]根据本公开实施例的一种具体实现方式,所述步骤1具体包括:
[0012]步骤
1.1
,所述三自由度非线性再入姿态控制模型的表达式为
[0013][0014]其中,
m,V
分别为飞行器质量和速度,
g
是引力加速度矢量,
α
,
β
,
σ
分别为攻角

侧滑角和倾侧角,
θ
为航迹倾角,
ω
x
,
ω
y
,
ω
z
分别表示横滚

偏航和俯仰的角速率,
I
xx
,I
yy
,I
zz
为飞行器绕体轴转动惯量,
I
xy
为惯性积,
X
t
,Y
t
,Z
t
分别为总阻力

总升力和总侧力,
M
tx
,M
ty
,M
tz
分别为滚转

偏航和俯仰通道的合力矩;
[0015]步骤
1.2
,忽略姿态运动方程中的质心运动相关项,考虑外界干扰以及由于模型简化和通道耦合引起的模型不确定性,将三自由度非线性再入姿态控制模型改写为
[0016][0017]其中,
Θ

[
α
,
β
,
σ
]T
为姿态角向量;
ω

[
ω
x
,
ω
y
,
ω
z
]T
表示姿态角速度向量;
Μ
t
为合力矩,
d
表示总扰动,矩阵
I

ω
×

R
的具体表达式如下:
[0018][0019]步骤
1.3
,令
X1=
Θ

X2=
R
ω
,得到状态空间模型为
[0020][0021]其中,
g1=
RI
‑1,d1=
RI
‑1d

u

M
t

[0022]根据本公开实施例的一种具体实现方式,所述超螺旋控制器的表达式为
[0023][0024]其中,
e1为姿态角误差项,
e2为三轴角速度的误差项,
s1为设计的滑模面,
||s1||
表示矢量
s1的二范数,
K1,
K2,
K3表示待设计控制增益;
[0025]K1,K2,K3的具体表达式如下:
[0026][0027]其中,其中,为
L1(t)
的导数,
σ
sT

σ
eT
均为常数,
L
a1
为自适应律调整参数

[0028]根据本公开实施例的一种具体实现方式,所述步骤3具体包括:
[0029]步骤
3.1
,选择预设数量的多数据帧作为当前时刻的状态空间;
[0030]步骤
3.2
,将超螺旋控制器中的自适应律调整参数作为动作空间;
[0031]步骤
3.3
,设置姿态角跟踪误差连续奖励函数

角速度变化率奖励函数

舵偏角变化率奖励函数

滑模面奖励函数

角速率误差奖励函数

边界稀疏奖励函数和常量奖励函数,并将全部函数联立得到单步奖励函数

[0032]根据本公开实施例的一种具体实现方式,所述姿态角跟踪误差连续奖励函数的表达式为
[0033]r
e

k1|e
α
|+k2|e
β
|+k3|e
σ
|

[0034]所述角速度变化率奖励函数的表达式为
r1=
|
Δω
x
|+|
Δω
y
|+|
Δω
z
|

[0035]所述舵偏角变化率奖励函数的表达式为
r2=
|
Δδ
x
|+|
Δδ
y本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于深度强化学习的高超声速变外形飞行器姿态控制方法,其特征在于,包括:步骤1,建立飞行器的三自由度非线性再入姿态控制模型,化简模型并转化为状态空间模型;步骤2,根据状态空间模型设计飞行器的超螺旋控制器;步骤3,定义马尔可夫决策过程,将姿态控制问题转化为深度强化学习模型;步骤4,在传统
TD3
算法基础上,建立双经验回放池,并分别在执行网络和评价网络中引入
LSTM
网络架构,对该深度强化学习模型进行离线训练,利用训练好的决策模型进行参数的自适应调整
。2.
根据权利要求1所述的方法,其特征在于
,
所述步骤1具体包括:步骤
1.1
,所述三自由度非线性再入姿态控制模型的表达式为其中,
m,V
分别为飞行器质量和速度,
g
是引力加速度矢量,
α
,
β
,
σ
分别为攻角

侧滑角和倾侧角,
θ
为航迹倾角,
ω
x
,
ω
y
,
ω
z
分别表示横滚

偏航和俯仰的角速率,
I
xx
,I
yy
,I
zz
为飞行器绕体轴转动惯量,
I
xy
为惯性积,
X
t
,Y
t
,Z
t
分别为总阻力

总升力和总侧力,
M
tx
,M
ty
,M
tz
分别为滚转

偏航和俯仰通道的合力矩;步骤
1.2
,忽略姿态运动方程中的质心运动相关项,考虑外界干扰以及由于模型简化和通道耦合引起的模型不确定性,将三自由度非线性再入姿态控制模型改写为其中,
Θ

[
α
,
β
,
σ
]
T
为姿态角向量;
ω

[
ω
x
,
ω
y
,
ω
z
]
T
表示姿态角速度向量;
Μ
t
为合力矩,
d
表示总扰动,矩阵
I

ω
×

R
的具体表达式如下:步骤
1.3
,令
X1=
Θ

X2=
R
ω
,得到状态空间模型为
其中,
g1=
RI
‑1,d1=
RI
‑1d

u

M
t
。3.
根据权利要求2所述的方法,其特征在于
,
所述超螺旋控制器的表达式为其中,
e1为姿态角误差项,
e2为三轴角速度的误差项,
s1为设计的滑模面,
||s1||
表示矢量
s1的二范数,
K1,
K2,
K3表示待设计控制增益;
K1,K2,K3的具体表达式如下:其中,其中,为
L1(t)
的导数,
σ
sT

σ
eT
均为常数,
L
a1
为自适应律调整参数
。4.
根据权利要求3所述的方法,其特征在于
,
所述步骤3具体包括:步骤
3.1
,选择预设数量的多数据帧作为当前时刻的状态空间;步骤
3.2
,将超螺旋控制器中的自适应律调整参数作为动作空间;步骤
3.3
,设置姿态角跟踪误差连续奖励函数

角速度变化率奖励函数

舵偏角变化率奖励函数

滑模面奖励函数

角速率误差奖励函数

边界稀疏奖励函数和常量奖励函数,并将全部函数联立得到单步奖励函数
。5.
根据权利要求4所述的方法,其特征在于
,
所述姿态角跟踪误差连续奖励函数的表达式为
r
e

k1|e
α
|+k2|e
β
|+k3|e
σ
|
;所述角速度变化率奖励函数的表达式为
r1=
|
Δω
x
|+|
Δω
y
|+|
Δω
z
|
;所述舵偏角变化率奖励函数的表达式为
r2=
|
Δδ
x
|+|
Δδ
y
|+|
Δδ
z
|
;所述滑模面...

【专利技术属性】
技术研发人员:李繁飙谢启超曹承钰丁溶阳春华
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1