一种基于强化学习的航天器对多拦截器自主规避机动方法技术

技术编号:26505703 阅读:44 留言:0更新日期:2020-11-27 15:33
一种基于强化学习的航天器对多拦截器自主规避机动方法,它属于反拦截技术领域。本发明专利技术解决了现有航天器程序式机动对多拦截器规避成功率低的问题。本发明专利技术提供一种不受航天器质量、材质限制的基于深度神经网络的自主规避机动方法,由两个部分组成,分别为离线训练系统和在线决策网络,其对航天器自身计算资源使用较少,具备实时决策能力,提升了航天器对多拦截器的规避成功率。当航天器采用本发明专利技术所述自主规避机动方法时规避机动平均成功率为49%,规避成功率提高了29%。该方法能够有效降低规避过程中发动机开关时间,使用能量更为节省。本发明专利技术可以应用于航天器对多拦截器的自主规避。

【技术实现步骤摘要】
一种基于强化学习的航天器对多拦截器自主规避机动方法
本专利技术属于反拦截
,具体涉及一种基于强化学习的航天器对多拦截器自主规避机动方法。
技术介绍
国外早在上世纪70年代就已经展开了机动规避技术研究,多是基于简化运动模型进行分析,并且仅对特殊轨迹点设计机动规避策略。国内早期研究集中在仿真建模方向,基于运动学约束建立了大量拦截器规避仿真系统。在此基础上有学者提出了基于微分对策的机动规避策略、基于最优控制的脉冲规避策略等方法,这些方法均为数学模型基础上的离线规划方法,不具备自主性。航天器在轨运行期间使用上述方法预先规划规避路径,然后利用程序式机动方式实现运动轨迹改变,但此类程序式机动对多拦截器规避成功率较低。
技术实现思路
本专利技术的目的是为了解决现有航天器程序式机动对多拦截器规避成功率低的问题,而提出了一种基于强化学习的航天器对多拦截器自主规避机动方法。本专利技术为解决上述技术问题采取的技术方案是:一种基于强化学习的航天器对多拦截器自主规避机动方法,该方法包括以下步骤:步骤一:分别建立航天器和拦截器的空本文档来自技高网...

【技术保护点】
1.一种基于强化学习的航天器对多拦截器自主规避机动方法,其特征在于,该方法包括以下步骤:/n步骤一:分别建立航天器和拦截器的空间动力学模型;/n步骤二:根据步骤一建立的航天器和拦截器的空间动力学模型,建立多拦截器真比例导引模型;/n步骤三:分别以航天器的各个发动机作为智能体,建立航天器规避机动决策模型;/n步骤四:根据强化学习理论建立多智能体自主决策训练系统;/n步骤五:将步骤一、步骤二和步骤三中所建立模型应用在步骤四系统中,离线训练航天器规避机动决策模型;/n步骤六:将步骤五中训练好的航天器规避机动决策模型应用于在线多拦截器规避机动场景中,得到成功自主规避机动轨迹。/n

【技术特征摘要】
1.一种基于强化学习的航天器对多拦截器自主规避机动方法,其特征在于,该方法包括以下步骤:
步骤一:分别建立航天器和拦截器的空间动力学模型;
步骤二:根据步骤一建立的航天器和拦截器的空间动力学模型,建立多拦截器真比例导引模型;
步骤三:分别以航天器的各个发动机作为智能体,建立航天器规避机动决策模型;
步骤四:根据强化学习理论建立多智能体自主决策训练系统;
步骤五:将步骤一、步骤二和步骤三中所建立模型应用在步骤四系统中,离线训练航天器规避机动决策模型;
步骤六:将步骤五中训练好的航天器规避机动决策模型应用于在线多拦截器规避机动场景中,得到成功自主规避机动轨迹。


2.根据权利要求1所述的一种基于强化学习的航天器对多拦截器自主规避机动方法,其特征在于,所述步骤一分别建立航天器和拦截器的空间动力学模型,其具体过程为:
在地心惯性坐标系下,航天器的空间动力学模型为:



其中,为航天器的空间位置矢量,rM为对应的标量,mM为航天器的瞬时质量,TM为航天器发动机合推力大小,为航天器发动机合推力方向单位矢量,μ是地球引力常数,为的二阶导数,为摄动加速度矢量;
航天器的质量变化率为:



其中,为航天器质量变化率,Isp,M为航天器发动机比冲,g0为重力加速度常数;
在地心惯性坐标系下,拦截器的空间动力学模型为:



其中,为拦截器的空间位置矢量,rI为对应的标量,mI为拦截器的瞬时质量,TI为拦截器发动机合推力大小,为拦截器发动机合推力方向单位矢量,为的二阶导数;
拦截器的质量变化率为:



其中,为拦截器质量变化率,Isp,I为拦截器发动机比冲。


3.根据权利要求2所述的一种基于强化学习的航天器对多拦截器自主规避机动方法,其特征在于,所述步骤二中,根据步骤一建立的航天器和拦截器的空间动力学模型,建立多拦截器真比例导引模型,其具体过程为:
根据步骤一建立的航天器和拦截器的空间动力学模型,得到航天器与拦截器的相对运动模型为:



其中,为航天器发动机合推力矢量,为拦截器发动机合推力矢量;
将(5)式沿弹目视线方向和垂直弹目视线方向进行分解得到:



式中,rrel为航天器与拦截器的相对距离,为rrel的一阶导数,vrel为航天器与拦截器的相对速度,为vrel的一阶导数,q为弹目视线角,为弹目视线角速率,为弹目视线角加速度,下标r,θ分别代表沿弹目视线方向分量和垂直弹目视线方向分量;
真比例导引的指令加速度aIθ垂直于弹目视线方向,aIθ与相对速度vrel和弹目视线角速率成正比,即有:



其中,k为比例导引系数。


4.根据权利要求3所述的一种基于强化学习的航天器对多拦截器自主规避机动方法,其特征在于,所述分别以航天器的各个发动机作为智能体,建立航天器规避机动决策模型,其具体过程为:
将航天器规避机动决策过程看作引入了动作和奖励的马尔科夫过程,利用五元组(S,A,T,p,γ)描述,其中S是过程演化的状态空间,A是动作集合,T是时间步骤集...

【专利技术属性】
技术研发人员:白成超郭继峰郑红星赵毓
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1