【技术实现步骤摘要】
运载火箭喷管推力下降工况下的强适应控制律设计方法
[0001]本专利技术涉及飞行器智能故障容错控制
,具体涉及一种运载火箭喷管推力下降工况下的强适应控制律设计方法。
技术介绍
[0002]姿态控制是运载器安全稳定飞行并且顺利完成任务的重要保证,故设计鲁棒性好、自适应能力强的先进的运载器姿态控制系统已成为近年来航空航天领域的研究热点。由于运载器再入过程飞行马赫数高,具有大包线、大空域的飞行特点,使得本身具有强非线性的被控模型,又兼备了大的气动不确定、外界干扰及严重的姿态通道及姿轨耦合,使得运载器姿态控制极具挑战。运载器在经过主动段的长距离飞行后,由于受到高动压、热压的影响,作为执行机构的姿控喷管系统在姿态调整段易出现退化故障,导致实际产生的姿态控制力矩偏离所期望的控制指令,从而影响控制精确性与系统可靠性。故运载器姿态控制系统必须具有高控制精度和强鲁棒性能,除了实现姿态的精确跟踪,还要保证系统具有应对执行机构部分失效故障的能力。
[0003]因此,控制器设计过程应充分考虑气动变化剧烈特点、强干扰和不确定以及执行机构 ...
【技术保护点】
【技术特征摘要】
1.运载火箭喷管推力下降工况下的强适应控制律设计方法,其特征在于,包括如下步骤:步骤一:建立喷管推理随机失效工况下运载火箭的三通道姿态回路数学模型,根据数学模型建立Python语言下的训练环境与Markov过程,定义运载火箭当前的姿态误差和角速度作为状态矢量s
t
,通过智能体产生的运载火箭的控制量输出作为动作矢量a
t
,根据运载火箭的微分方程产生运载火箭下一时刻的姿态误差和角速度作为状态矢量s
t+1
,控制量作用之后的角度误差和角速度的L2距离作为环境反馈的奖励r
t
。将s
t
与a
t
作为训练环境的输入,将r
t
与s
t+1
作为训练环境的输出,则运载火箭姿态控制的Markov过程定义为由s
t
和a
t
生成r
t
和s
t+1
的过程;步骤二:建立TD3强化学习算法智能体,TD3强化学习智能体包括2个Actor网络和4个Critic网络,将状态矢量s
t
作为Actor执行网络的输入并输出动作矢量a
t
,将Actor网络作用于环境得到的奖励r
t
和下一时刻的状态矢量s
t+1
与s
t
和a
t
组成数据样本来训练Critic执行网络实现智能体与环境交互下累计回报的预测,并通过Critic网络预测的累计回报Q
t
(s
t
,a
t
)指导Actor网络获得最大的累计回报值,即最小的累计控制误差;Actor网络含1个用于训练的执行网络和1个用于产生期望价值的目标网络,Critic网络含2个用于训练的执行网络和2个用于产生期望价值的目标网络;步骤三:当所述TD3强化学习算法智能体训练收敛后,采用Actor网络作为控制器,实现在喷管推力失效工况下的运载火箭姿态控制。2.如权利要求1所述的运载火箭喷管推力下降工况下的强适应控制律设计方法,其特征在于,所述步骤二,具体包括如下步骤:步骤201:采用随机权重初始化Actor执行网络参数ω
eval
,Actor目标网络参数ω
tar
,Critic执行网络1、执行网络2的参数θ
eval1
,θ
eval2
,Critic目标网络1、目标网络2参数θ
tar1
,θ
tar2
;步骤202:采用Actor执行网络与训练环境交互,将得到的Markov过程矢量[s
t
,a
t
,r
t
,s
t+1
]来填充经验回放缓存池,直到填满一个batch的数据之后,进入步骤203开始进行训练;步骤203:随机初始化训练环境中的初始状态s0;步骤204:通过Actor执行网络在s
t
状态下产生动作a
t
=μ
...
【专利技术属性】
技术研发人员:韦闽峰,夏元清,贾晨辉,段静,刘晓东,张远,董鹏程,刘国明,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。