一种基于强化学习的变比例系数多弹协同制导方法及系统技术方案

技术编号:41284335 阅读:32 留言:0更新日期:2024-05-11 09:33
本发明专利技术涉及导弹制导控制技术领域,一种基于强化学习的变比例系数多弹协同制导方法,基于强化学习框架PPO实时生成比例导引系数,进而计算出导弹过载,引导多弹协同打击目标,具体步骤为:将多弹协同打击目标描述为马尔可夫决策过程;针对多弹协同打击目标的要求,设计强化学习框架;依据构建的多弹协同马尔可夫决策过程以及强化学习框架进行智能体模型训练;基于已经训练完成的智能体模型,计算多弹协同比例导引系数,构建多弹协同打击制导律,进行末端多弹协同打击目标,本发明专利技术采用比例导引制导律与智能强化学习方法相结合的实现多弹协同拦截目标,能够实现多弹末端拦截时刻一致,对于实现多弹协同打击目标具有非常重要的工程意义。

【技术实现步骤摘要】

本专利技术涉及导弹制导控制,具体为一种基于强化学习的变比例系数多弹协同制导方法及系统


技术介绍

1、在导弹制导律设计中,比例导引制导律在实现零脱靶量具有非常重要的应用,随着防空反导系统性能的广泛提升,迫切需要设计时间协同制导律以对目标进行饱和打击,提高末端导弹突防概率,提升末端打击效果。

2、对齐多枚导弹末端打击时间的主要方法可以分为两大类,第一类是提前指定导弹飞行时间,第二类是不需要提前指定飞行时间,让导弹彼此之间互相协调飞行时间;第一类协调制导律中,导弹之间不需要进行通信;第二类协同制导律,需要导弹彼此之间或者相邻之间互相通信,进而实现末端打击时间对齐。

3、专利公开号cn115046433b公开了一种基于深度强化学习的飞行器时间协同制导方法,在比例导引的基础上,利用强化学习智能体输出偏置项,构建偏置比例导引制导律实现导弹指定时间打击;专利公开号cn112799429b公开了一种基于强化学习的多弹协同攻击制导律设计方法,在二维制导平面中,利用传统的比例导引制导律和强化学习智能体输出偏置项,构成偏置比例导引实现多弹协同打击目标,本文档来自技高网...

【技术保护点】

1.一种基于强化学习的变比例系数多弹协同制导方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于强化学习的变比例系数多弹协同制导方法,其特征在于:所述步骤1将三维空间中的多弹协同打击过程描述为马尔可夫决策过程,具体包括:

3.根据权利要求2所述的一种基于强化学习的变比例系数多弹协同制导方法,其特征在于:所述设计奖励函数的具体过程为,

4.根据权利要求3所述的一种基于强化学习的变比例系数多弹协同制导方法,其特征在于:所述步骤1马尔可夫决策过程的奖励函数是利用弹目距离和剩余飞行时间一致性误差进行构建。

5.根据权利要求4所述的一种...

【技术特征摘要】

1.一种基于强化学习的变比例系数多弹协同制导方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于强化学习的变比例系数多弹协同制导方法,其特征在于:所述步骤1将三维空间中的多弹协同打击过程描述为马尔可夫决策过程,具体包括:

3.根据权利要求2所述的一种基于强化学习的变比例系数多弹协同制导方法,其特征在于:所述设计奖励函数的具体过程为,

4.根据权利要求3所述的一种基于强化学习的变比例系数多弹协同制导方法,其特征在于:所述步骤1马尔可夫决策过程的奖励函数是利用弹目距离和剩余飞行时间一致性误差进行构建。

5.根据权利要求4所述的一种基于强化学习的变比例系数多弹协同制导方法,其特征在于:导弹与目标之间的非线性交战动力学方程为其中ri为第i枚导弹与目标之间的相对距离,为第i枚导弹与目标之间的视线倾角,为第i枚导弹与目标之间的视线偏角,θi为第i枚导弹与目标之间的俯仰前置角,ψi为第i枚导弹与目标之间的偏航前置角,σi为第i枚导弹的总前置角,为第...

【专利技术属性】
技术研发人员:宋申民顾振康鸿龙李建锋
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1