一种基于逆强化学习的运载火箭减载控制方法技术

技术编号:30366265 阅读:53 留言:0更新日期:2021-10-16 17:33
本发明专利技术提供一种基于逆强化学习的运载火箭减载控制方法,其具体步骤如下:一、考虑风场情况的运载火箭动力学模型的建立;二、被动减载专家示范生成;三、逆强化学习减载控制策略训练;四、减载控制器迁移,即将训练得到的减载控制策略网络参数固化,与运载火箭动力学的输入输出接口实现闭环,作为减载控制器。通过以上步骤,本发明专利技术能实现运载火箭减载控制,解决了目前存在的依赖精确风场信息、无法保证制导精度的问题,达到了较好的稳定性和普适性。本发明专利技术所述制导控制方法科学,工艺性好,具有广阔推广应用价值。阔推广应用价值。阔推广应用价值。

【技术实现步骤摘要】
一种基于逆强化学习的运载火箭减载控制方法


[0001]本专利技术提供一种基于逆强化学习的运载火箭减载控制方法,它是一种运载火箭上升段在稠密大气层内自主调整姿态以减小气动载荷的制导控制方法,适用于一般运载火箭,属于航空航天;制导、导航与控制技术;强化学习控制领域;

技术介绍

[0002]运载火箭上升段飞行过程中,高速飞行的箭体与气流产生相互作用,使得箭体受到气动力和气动力矩,称为气动载荷;为维持箭体姿态稳定,需要施加同等大小的控制力矩与气动力矩平衡,从而在箭体产生内力弯矩;由于运载火箭具有高长细比,上述内力弯矩容易造成运载火箭结构的失稳甚至破坏;
[0003]运载火箭减载控制就是通过控制的方式,减小运载火箭飞行过程中的气动载荷;根据理论分析和长期的工程实践,已经提出了多种减载控制方法,分为主动减载和被动减载两类,被动减载是通过观测数据建立运载火箭飞行环境的风场模型,通过对标准弹道进行风修正的方式减小实际飞行中的气动载荷,但对于无法建模的风干扰,被动减载无法起到减载作用;主动减载则是通过在姿态控制系统中引入与气动载荷直接或间接相关的反馈量,实现对气动载荷的抑制,由于主动减载控制是在运载火箭姿态控制回路的基础上增加气动载荷反馈回路,其减载效果受到姿态控制回路稳定性的约束,且无法保证制导精度;
[0004]综上所述,本专利技术为解决现有运载火箭减载控制难题,以被动减载轨迹作为专家示范,将逆强化学习技术应用于减载控制中,从被动减载专家示范中推断出综合表征气动载荷和制导精度的减载指标,并根据此减载指标进行随机风场下的强化学习训练,得到具有风场适应性且能够保证制导精度的减载控制器,具有一定独创性;

技术实现思路

[0005](一)本专利技术的目的
[0006]本专利技术的目的是为了解决上述问题,提出一种基于逆强化学习的运载火箭减载控制方法,即一种运载火箭上升段减载控制方法,通过逆强化学习减载指标推断和减载控制策略训练,得到具有风场适应性且能够保证制导精度的减载控制策略,以解决现有技术存在的依赖精确风场信息、无法保证制导精度等问题,提高运载火箭的可靠性;
[0007](二)技术方案
[0008]本专利技术一种基于逆强化学习的运载火箭减载控制方法,其具体步骤如下:
[0009]步骤一、模型建立;
[0010]根据统计风场信息和运载火箭总体参数,建立考虑风场情况的运载火箭动力学模型;
[0011]步骤二、被动减载专家示范生成;
[0012]根据已有被动减载方法,根据已知风场信息对标称轨迹进行风修正,并对风修正后的轨迹进行跟踪,生成被动减载专家示范;
[0013]步骤三、逆强化学习减载控制策略训练;
[0014]根据生成对抗模仿学习逆强化学习方法,将被动减载专家示范作为输入,训练得到逆强化学习减载控制策略网络;
[0015]步骤四、减载控制器迁移;
[0016]将训练得到的减载控制策略网络参数固化,与运载火箭动力学的输入输出接口实现闭环,作为减载控制器;
[0017]其中,在步骤一中所述的“建立考虑风场情况的运载火箭动力学模型”,其建立模型的具体作法如下:考虑平面地球假设,并根据文献提供的统计数据,在水平方向加入风场模型,结合相关坐标系,根据各状态量之间几何和力学关系在射面内建立运载火箭动力学模型;
[0018]其中,在步骤二中所述的“被动减载方法”,是指运载火箭减载控制的经典方法之一,该技术为本领域的公知技术;
[0019]其中,在步骤二中所述的“对风修正后的轨迹进行跟踪,生成被动减载专家示范”,其具体作法如下:根据运载火箭动力学模型设计姿态控制器,跟踪风修正轨迹所对应的姿态序列,将跟踪过程中的控制量和运载火箭状态量序列保存作为被动减载专家示范;
[0020]其中,在步骤三中所述的“生成对抗模仿学习逆强化学习方法”,是指基于最大熵逆强化学习推导得到鞍点形式的逆强化学习优化指标,以奖励函数网络和策略网络构成生成对抗网络结构,基于优化指标进行奖励函数及策略参数寻优的逆强化学习方法,是一种改进的逆强化学习方法;
[0021]其中,在步骤三中所述的“将被动减载专家示范作为输入,训练得到逆强化学习减载控制策略网络”,其具体作法如下:根据动减载专家示范中的状态量和控制量序列,以及当前减载控制策略网络与运载火箭动力学交互所产生的状态量和控制量序列,使用文献中的最大熵逆强化学习原理推导,得到最优减载奖励函数和减载控制策略所满足的鞍点形式优化指标,基于该优化指标,对奖励函数网络和策略网络参数进行梯度更新训练,直至收敛;
[0022]其中,在步骤四中所述的“将训练得到的减载控制策略网络参数固化,与运载火箭动力学的输入输出接口实现闭环,作为减载控制器”,其具体作法如下:将逆强化学习训练得到的减载控制策略网络参数固定,以运载火箭动力学输出的状态量作为减载控制策略网络的输入,经过减载策略网络的前向传播,以减载策略网络的输出量作为运载火箭动力学的发动机摆角指令,形成控制闭环;
[0023]通过以上步骤,可以实现运载火箭减载控制,解决了目前存在的依赖精确风场信息、无法保证制导精度的问题,达到了较好的稳定性和普适性;
[0024](三)本专利技术的优点及功效
[0025](1)本专利技术基于逆强化学习方法,得到了运载火箭减载控制方法,解决了目前存在的依赖精确风场信息、无法保证制导精度、调参复杂的问题,可适用于任意风场环境和任意上升段标称轨迹;
[0026](2)本专利技术采用逆强化学习的方法,根据示范样本自动设计强化学习过程中的奖励函数,避免了手动设计奖励信号对优化效果的影响,能够取得良好的减载控制效果;
[0027](3)本专利技术所述制导控制方法科学,工艺性好,具有广阔推广应用价值;
附图说明
[0028]图1是本专利技术所述方法流程图;
[0029]图2是运载火箭运动几何关系图;
[0030]图3是标准弹道、被动减载弹道和逆强化学习减载弹道气动载荷对比图;
[0031]图4是标准弹道与逆强化学习减载弹道高度剖面对比图;
[0032]图5是发动机摆角响应图;
[0033]图中序号、符号、代号统一归纳说明如下:
[0034]图2:O表示发射点,C表示运载火箭质心;V
m
表示运载火箭相对来流的速度矢量,即空速;V
i
表示运载火箭相对地球的速度矢量,即地速;V
w
表示风速;n为垂直于射面的法向量;x
i
表示发射点当地水平面的垂直向上方向,z
i
表示发射方向在发射点当地水平面内的投影,x
b
表示运载火箭纵轴方向,z
b
表示运载火箭射面内垂直于运载火箭纵轴向上的方向,x
a
表示运载火箭空速方向,z
a
表示运载火箭射面内垂直于运载火箭空速向上的方向;α为运载火箭攻角,为运载火箭俯仰角,θ为运载火箭弹道倾角,α
w本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于逆强化学习的运载火箭减载控制方法,其特征在于:其具体步骤如下:步骤一、模型建立;根据统计风场信息和运载火箭总体参数,建立考虑风场情况的运载火箭动力学模型;步骤二、被动减载专家示范生成;根据已有被动减载方法,根据已知风场信息对标称轨迹进行风修正,并对风修正后的轨迹进行跟踪,生成被动减载专家示范;步骤三、逆强化学习减载控制策略训练;根据生成对抗模仿学习逆强化学习方法,将被动减载专家示范作为输入,训练得到逆强化学习减载控制策略网络;步骤四、减载控制器迁移;将训练得到的减载控制策略网络参数固化,与运载火箭动力学的输入输出接口实现闭环,作为减载控制器。2.根据权利要求1所述的一种基于逆强化学习的运载火箭减载控制方法,其特征在于:在步骤一中所述的“建立考虑风场情况的运载火箭动力学模型”,其建立模型的具体作法如下:考虑平面地球假设,并根据统计数据,在水平方向加入风场模型,结合相关坐标系,根据各状态量之间几何和力学关系在射面内建立运载火箭动力学模型。3.根据权利要求1所述的一种基于逆强化学习的运载火箭减载控制方法,其特征在于:在步骤二中所述的“对风修正后的轨迹进行跟踪,生成被动减载专家示范”,其具体作法如下:根据运载火箭动力学模型设计姿态控制器,跟踪风修正轨迹所对应的姿态序列,将跟踪过程中的控制量和运载火箭状态量序列保存作为被动减载专家示范。4.根据权利要求1所述的一种基于逆强化学习的运载火箭减载控制方法,其特征在于:在步骤三中所述的“生成对抗模仿学习逆强化学习方法”,是指基于最大熵逆强化学习推导得到鞍点形式的逆强化学习优化指标,以奖励函数网络和策略网络构成生成对抗网络结构,基于优化指标进行奖励函数及策略参数寻优的逆强化学习方法,是一种改进的逆强化学习方法。5.根据权利要求1所述的一种基于逆强化学习的运载火箭减载控制方法,其特征在于:在步骤三中所述的“将被动减载专家示范作为输入,训练得到逆强化学习减载控制策略网络”,其具体作法如下:根据动减载专家示范中的状态量和控制量序列,以及当前减载控制策略网络与运载火箭动力学交互所产生的状态量和控制量序列,使用文献中的最大熵逆强化学习原理推导,得到最优减载奖励函数和减载控制策略所满足的鞍点形式优化指标,基于该优化指标,对奖励函数网络和策略网络参数进行梯度更新训练,直至收敛。6.根据权利要求1所述的一种基于逆强化学习的运载火箭减载控制方法,其特征在于:在步骤四中所述的“将训练得到的减载控制策略网络参数固化,与运载火箭动力学的输入输出接口实现闭环,作为减载控制器”,其具体作法如下:将逆强化学习训练得到的减载控制策略网络参数固定,以运载火箭动力学输出的状态量作为减载控制策略网络的输入,经过减载策略网络的前向传播,以减载策略网络的输出量作为运载火箭动力学的发动机摆角指令,形成控制闭环。7.根据权利要求1或2所述的一种基于逆强化学习的运载火箭减载控制方法,其特征在于:在步骤一中,根据平面地球假设,结合相关坐标系,根据各状态量之间几何和力学关系
建立运载火箭射面内动力学模型,表达式如下:其中r为发射点到火箭质心的位置矢量,为运载火箭俯仰角,m为运载火箭质量,J为运载火箭俯仰轴惯量;F
ae
、F
prop
、F
g
、M
ae
、M
prop
、为运载火箭所受气动力矢量、推力矢量、重力矢量、俯仰气动力矩、俯仰推力力矩;气动力矢量F
ae
在气流坐标系下展开为:其中F
base
为运载火箭所受底部力,为高度h的插值函数;C
A
和C

分别为气动阻力系数和气动升力系数,均为马赫数M
a
的插值函数;α为运载火箭攻角;Q为运载火箭动压头;A为运载火箭参考截面积;M
a
和Q的表达式为:和Q的表达式为:其中,V
m
为运载火箭空速矢量;ρ为大气密度,c为声速,二者均为高度h的插值函数;推力矢量F
prop
在箭体坐标系下展开为:其中,P0为运载火箭发动机等效推力;p为大气压强,为高度h的插值函数;A
e
为运载火箭发动机...

【专利技术属性】
技术研发人员:李惠峰何林坤张冉
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1