【技术实现步骤摘要】
本专利技术涉及导弹制导控制,具体为一种基于强化学习的变比例系数多弹协同制导方法及系统。
技术介绍
1、在导弹制导律设计中,比例导引制导律在实现零脱靶量具有非常重要的应用,随着防空反导系统性能的广泛提升,迫切需要设计时间协同制导律以对目标进行饱和打击,提高末端导弹突防概率,提升末端打击效果。
2、对齐多枚导弹末端打击时间的主要方法可以分为两大类,第一类是提前指定导弹飞行时间,第二类是不需要提前指定飞行时间,让导弹彼此之间互相协调飞行时间;第一类协调制导律中,导弹之间不需要进行通信;第二类协同制导律,需要导弹彼此之间或者相邻之间互相通信,进而实现末端打击时间对齐。
3、专利公开号cn115046433b公开了一种基于深度强化学习的飞行器时间协同制导方法,在比例导引的基础上,利用强化学习智能体输出偏置项,构建偏置比例导引制导律实现导弹指定时间打击;专利公开号cn112799429b公开了一种基于强化学习的多弹协同攻击制导律设计方法,在二维制导平面中,利用传统的比例导引制导律和强化学习智能体输出偏置项,构成偏置比例导引实
...【技术保护点】
1.一种基于强化学习的变比例系数多弹协同制导方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于强化学习的变比例系数多弹协同制导方法,其特征在于:所述步骤1将三维空间中的多弹协同打击过程描述为马尔可夫决策过程,具体包括:
3.根据权利要求2所述的一种基于强化学习的变比例系数多弹协同制导方法,其特征在于:所述设计奖励函数的具体过程为,
4.根据权利要求3所述的一种基于强化学习的变比例系数多弹协同制导方法,其特征在于:所述步骤1马尔可夫决策过程的奖励函数是利用弹目距离和剩余飞行时间一致性误差进行构建。
5.根据
...【技术特征摘要】
1.一种基于强化学习的变比例系数多弹协同制导方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于强化学习的变比例系数多弹协同制导方法,其特征在于:所述步骤1将三维空间中的多弹协同打击过程描述为马尔可夫决策过程,具体包括:
3.根据权利要求2所述的一种基于强化学习的变比例系数多弹协同制导方法,其特征在于:所述设计奖励函数的具体过程为,
4.根据权利要求3所述的一种基于强化学习的变比例系数多弹协同制导方法,其特征在于:所述步骤1马尔可夫决策过程的奖励函数是利用弹目距离和剩余飞行时间一致性误差进行构建。
5.根据权利要求4所述的一种基于强化学习的变比例系数多弹协同制导方法,其特征在于:导弹与目标之间的非线性交战动力学方程为其中ri为第i枚导弹与目标之间的相对距离,为第i枚导弹与目标之间的视线倾角,为第i枚导弹与目标之间的视线偏角,θi为第i枚导弹与目标之间的俯仰前置角,ψi为第i枚导弹与目标之间的偏航前置角,σi为第i枚导弹的总前置角,为第...
【专利技术属性】
技术研发人员:宋申民,顾振,康鸿龙,李建锋,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。