一种基于逆强化学习的运载火箭减载控制方法技术

技术编号：30366265 阅读：53 留言：0更新日期：2021-10-16 17:33

本发明专利技术提供一种基于逆强化学习的运载火箭减载控制方法，其具体步骤如下：一、考虑风场情况的运载火箭动力学模型的建立；二、被动减载专家示范生成；三、逆强化学习减载控制策略训练；四、减载控制器迁移，即将训练得到的减载控制策略网络参数固化，与运载火箭动力学的输入输出接口实现闭环，作为减载控制器。通过以上步骤，本发明专利技术能实现运载火箭减载控制，解决了目前存在的依赖精确风场信息、无法保证制导精度的问题，达到了较好的稳定性和普适性。本发明专利技术所述制导控制方法科学，工艺性好，具有广阔推广应用价值。阔推广应用价值。阔推广应用价值。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于逆强化学习的运载火箭减载控制方法

[0001]本专利技术提供一种基于逆强化学习的运载火箭减载控制方法，它是一种运载火箭上升段在稠密大气层内自主调整姿态以减小气动载荷的制导控制方法，适用于一般运载火箭，属于航空航天；制导、导航与控制技术；强化学习控制领域；

技术介绍

[0002]运载火箭上升段飞行过程中，高速飞行的箭体与气流产生相互作用，使得箭体受到气动力和气动力矩，称为气动载荷；为维持箭体姿态稳定，需要施加同等大小的控制力矩与气动力矩平衡，从而在箭体产生内力弯矩；由于运载火箭具有高长细比，上述内力弯矩容易造成运载火箭结构的失稳甚至破坏；
[0003]运载火箭减载控制就是通过控制的方式，减小运载火箭飞行过程中的气动载荷；根据理论分析和长期的工程实践，已经提出了多种减载控制方法，分为主动减载和被动减载两类，被动减载是通过观测数据建立运载火箭飞行环境的风场模型，通过对标准弹道进行风修正的方式减小实际飞行中的气动载荷，但对于无法建模的风干扰，被动减载无法起到减载作用；主动减载则是通过在姿态控制系统中引入与气动载荷直接或间接相关的反馈量，实现对气动载荷的抑制，由于主动减载控制是在运载火箭姿态控制回路的基础上增加气动载荷反馈回路，其减载效果受到姿态控制回路稳定性的约束，且无法保证制导精度；
[0004]综上所述，本专利技术为解决现有运载火箭减载控制难题，以被动减载轨迹作为专家示范，将逆强化学习技术应用于减载控制中，从被动减载专家示范中推断出综合表征气动载荷和制导精度的减载指标，并根据此减载指标进行随机风场...

【技术保护点】

【技术特征摘要】
1.一种基于逆强化学习的运载火箭减载控制方法，其特征在于：其具体步骤如下：步骤一、模型建立；根据统计风场信息和运载火箭总体参数，建立考虑风场情况的运载火箭动力学模型；步骤二、被动减载专家示范生成；根据已有被动减载方法，根据已知风场信息对标称轨迹进行风修正，并对风修正后的轨迹进行跟踪，生成被动减载专家示范；步骤三、逆强化学习减载控制策略训练；根据生成对抗模仿学习逆强化学习方法，将被动减载专家示范作为输入，训练得到逆强化学习减载控制策略网络；步骤四、减载控制器迁移；将训练得到的减载控制策略网络参数固化，与运载火箭动力学的输入输出接口实现闭环，作为减载控制器。2.根据权利要求1所述的一种基于逆强化学习的运载火箭减载控制方法，其特征在于：在步骤一中所述的“建立考虑风场情况的运载火箭动力学模型”，其建立模型的具体作法如下：考虑平面地球假设，并根据统计数据，在水平方向加入风场模型，结合相关坐标系，根据各状态量之间几何和力学关系在射面内建立运载火箭动力学模型。3.根据权利要求1所述的一种基于逆强化学习的运载火箭减载控制方法，其特征在于：在步骤二中所述的“对风修正后的轨迹进行跟踪，生成被动减载专家示范”，其具体作法如下：根据运载火箭动力学模型设计姿态控制器，跟踪风修正轨迹所对应的姿态序列，将跟踪过程中的控制量和运载火箭状态量序列保存作为被动减载专家示范。4.根据权利要求1所述的一种基于逆强化学习的运载火箭减载控制方法，其特征在于：在步骤三中所述的“生成对抗模仿学习逆强化学习方法”，是指基于最大熵逆强化学习推导得到鞍点形式的逆强化学习优化指标，以奖励函数网络和策略网络构成生成对抗网络结构，基于优化指标进行奖励函数及策略参数寻优的逆强化学习方法，是一种改进的逆强化学习方法。5.根据权利要求1所述的一种基于逆强化学习的运载火箭减载控制方法，其特征在于：在步骤三中所述的“将被动减载专家示范作为输入，训练得到逆强化学习减载控制策略网络”，其具体作法如下：根据动减载专家示范中的状态量和控制量序列，以及当前减载控制策略网络与运载火箭动力学交互所产生的状态量和控制量序列，使用文献中的最大熵逆强化学习原理推导，得到最优减载奖励函数和减载控制策略所满足的鞍点形式优化指标，基于该优化指标，对奖励函数网络和策略网络参数进行梯度更新训练，直至收敛。6.根据权利要求1所述的一种基于逆强化学习的运载火箭减载控制方法，其特征在于：在步骤四中所述的“将训练得到的减载控制策略网络参数固化，与运载火箭动力学的输入输出接口实现闭环，作为减载控制器”，其具体作法如下：将逆强化学习训练得到的减载控制策略网络参数固定，以运载火箭动力学输出的状态量作为减载控制策略网络的输入，经过减载策略网络的前向传播，以减载策略网络的输出量作为运载火箭动力学的发动机摆角指令，形成控制闭环。7.根据权利要求1或2所述的一种基于逆强化学习的运载火箭减载控制方法，其特征在于：在步骤一中，根据平面地球假设，结合相关坐标系，根据各状态量之间几何和力学关系
建立运载火箭射面内动力学模型，表达式如下：其中r为发射点到火箭质心的位置矢量，为运载火箭俯仰角，m为运载火箭质量，J为运载火箭俯仰轴惯量；F
ae
、F
prop
、F
g
、M
ae
、M
prop
、为运载火箭所受气动力矢量、推力矢量、重力矢量、俯仰气动力矩、俯仰推力力矩；气动力矢量F
ae
在气流坐标系下展开为：其中F
base
为运载火箭所受底部力，为高度h的插值函数；C
A
和C
Nα
分别为气动阻力系数和气动升力系数，均为马赫数M
a
的插值函数；α为运载火箭攻角；Q为运载火箭动压头；A为运载火箭参考截面积；M
a
和Q的表达式为：和Q的表达式为：其中，V
m
为运载火箭空速矢量；ρ为大气密度，c为声速，二者均为高度h的插值函数；推力矢量F
prop
在箭体坐标系下展开为：其中，P0为运载火箭发动机等效推力；p为大气压强，为高度h的插值函数；A
e
为运载火箭发动机...

【专利技术属性】
技术研发人员：李惠峰，何林坤，张冉，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人