一种基于强化学习的变比例系数多弹协同制导方法及系统技术方案

技术编号：41284335 阅读：7 留言：0更新日期：2024-05-11 09:33

本发明专利技术涉及导弹制导控制技术领域，一种基于强化学习的变比例系数多弹协同制导方法，基于强化学习框架PPO实时生成比例导引系数，进而计算出导弹过载，引导多弹协同打击目标，具体步骤为：将多弹协同打击目标描述为马尔可夫决策过程；针对多弹协同打击目标的要求，设计强化学习框架；依据构建的多弹协同马尔可夫决策过程以及强化学习框架进行智能体模型训练；基于已经训练完成的智能体模型，计算多弹协同比例导引系数，构建多弹协同打击制导律，进行末端多弹协同打击目标，本发明专利技术采用比例导引制导律与智能强化学习方法相结合的实现多弹协同拦截目标，能够实现多弹末端拦截时刻一致，对于实现多弹协同打击目标具有非常重要的工程意义。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及导弹制导控制，具体为一种基于强化学习的变比例系数多弹协同制导方法及系统。

技术介绍

1、在导弹制导律设计中，比例导引制导律在实现零脱靶量具有非常重要的应用，随着防空反导系统性能的广泛提升，迫切需要设计时间协同制导律以对目标进行饱和打击，提高末端导弹突防概率，提升末端打击效果。

2、对齐多枚导弹末端打击时间的主要方法可以分为两大类，第一类是提前指定导弹飞行时间，第二类是不需要提前指定飞行时间，让导弹彼此之间互相协调飞行时间；第一类协调制导律中，导弹之间不需要进行通信；第二类协同制导律，需要导弹彼此之间或者相邻之间互相通信，进而实现末端打击时间对齐。

3、专利公开号cn115046433b公开了一种基于深度强化学习的飞行器时间协同制导方法，在比例导引的基础上，利用强化学习智能体输出偏置项，构建偏置比例导引制导律实现导弹指定时间打击；专利公开号cn112799429b公开了一种基于强化学习的多弹协同攻击制导律设计方法，在二维制导平面中，利用传统的比例导引制导律和强化学习智能体输出偏置项，构成偏置比例导引实现多弹协同打击目标，不需要提前指定打击时间，导弹之间根据飞行时间误差协调末端打击时间。

4、上述专利技术利用强化学习和比例导引制导律相结合的方法，构建偏置比例导引制导律实现多弹协同打击，然而都存在一定缺陷，专利公开号cn115046433b所述方法需要提前装订攻击时间，这导致预装的攻击时间对于多弹能否实现协同有很大的影响；而专利公开号cn112799429b所述的偏置比例导引方法不需要

技术实现思路

1、本专利技术的目的在于提供一种基于强化学习的变比例系数多弹协同制导方法及系统，以解决上述
技术介绍
中提出的问题。

2、为实现上述目的，一种基于强化学习的变比例系数多弹协同制导方法，包括如下步骤：

3、步骤1，将三维空间中的多弹协同打击过程描述为马尔可夫决策过程；

4、步骤2，针对步骤1中的马尔可夫决策过程设计强化学习框架；

5、步骤3，基于步骤1中的多弹协同拦截马尔可夫决策过程以及步骤2中的强化学习框架，进行强化学习智能体训练；

6、步骤4，基于步骤3已经训练完成的多弹协同拦截智能体，根据多弹实时状态，实时计算多弹比例导引系数，进而进行多弹协同打击目标。

7、优选的：所述步骤1将三维空间中的多弹协同打击过程描述为马尔可夫决策过程，具体包括：

8、步骤1-1、构建多导弹状态空间

9、其中n为导弹数量，第i枚导弹的剩余飞行时间(0)代表参数的初始值，利用弹目距离r初始值、总前置角σ初始值、剩余飞行时间tgo初始值对状态空间进行归一化处理；步骤1-2、设计动作空间和多弹协同制导律，动作空间为其中为第n枚导弹的比例导引系数，多弹协同制导律为

10、步骤1-3、设计奖励函数。

11、优选的：所述设计奖励函数的具体过程为，

12、步骤1-3-1、设计关于弹目距离的奖励函数其中ri0为ri的初始值；

13、步骤1-3-2、设计关于剩余飞行时间一致性协议的奖励函数其中aij＞0为常数；

14、步骤1-3-3、奖励函数设计为

15、优选的：所述步骤1马尔可夫决策过程的奖励函数是利用弹目距离和剩余飞行时间一致性误差进行构建。

16、优选的：导弹与目标之间的非线性交战动力学方程为其中ri为第i枚导弹与目标之间的相对距离，为第i枚导弹与目标之间的视线倾角，为第i枚导弹与目标之间的视线偏角，θi为第i枚导弹与目标之间的俯仰前置角，ψi为第i枚导弹与目标之间的偏航前置角，σi为第i枚导弹的总前置角，为第i枚导弹在俯仰方向上的控制力，为第i枚导弹在偏航方向上的控制力。

17、优选的：所述步骤2针对步骤1中的马尔可夫决策过程设计强化学习框架，所述强化学习框架为近端策略优化算法(ppo)。

18、优选的：所述步骤3基于步骤1中的多弹协同拦截马尔可夫决策过程以及步骤2中的强化学习框架，进行强化学习智能体训练，具体包括：

19、步骤3-1，初始化智能体actor和critic网络策略参数θ0；

20、步骤3-2，使用策略与环境进行交互进而收集状态st、当前动作{st,at}，其中at为t时刻的智能体输出的动作；

21、步骤3-3，计算优势函数a(st,at)＝rt+γvπ(st+1)-vπ(st)，其中rt为智能体的奖励，γ为折扣因子，vπ(st)为状态st下的值函数；

22、步骤3-4，不断更新策略参数θ，找到目标函数相应的最优策略参数，rt(θ)为新旧策略出现概率的比值，为t时刻的优势函数，ε为超参数，表示经验期望；

23、步骤3-5，返回至步骤3-2，反复迭代循环，直到满足训练停止条件，得到训练完成的智能体模型。

24、优选的：所述步骤4基于步骤3已经训练完成的多弹协同拦截智能体，根据多弹实时状态，实时计算多弹比例导引系数，进而进行多弹协同打击目标，具体包括：

25、步骤4-1，集中式获取n枚导弹的飞行状态s，将状态s输入到步骤3-5获得的强化学习智能体模型，得到当前智能体的动作

26、步骤4-2，将步骤4-1计算得到的智能体动作a，代入到步骤1-2设计的多弹协同制导律中，得到第i枚导弹的控制量，输入到第i枚导弹与目标之间的非线性交战动力学方程中；

27、步骤4-3，返回至步骤4-1，直到导弹命中目标。

28、一种基于强化学习的变比例系数多弹协同制导系统，包括弹群运动学计算单元、导弹剩余飞行时间计算单元和弹群制导控制单元：

29、弹群运动学计算单元，用于提取弹群中每枚导弹的制导运动学信息；

30、导弹剩余飞行时间计算单元，用于估算弹群中每枚导弹的剩余攻击飞行时间；

31、弹群制导控制单元，利用上述一种基于强化学习的变比例系数多弹协同制导方法，使得弹群决策出比例导引系数，建立多弹协同制导律。

32、本专利技术相较于现有技术，其有益效果为：

33、本专利技术提出的一种基于强化学习的变比例系数多弹协同制导方法及系统，基于比例导引制导律，通过集中式获取多导弹状态，通过已经训练完成的强化学习智能体模型计算多枚导弹的比例导引系数，进而去驱动多枚导弹飞行，实现多弹协同打击目标，解算过程清晰、快捷，协同制导打击精度高。

本文档来自技高网...

【技术保护点】

1.一种基于强化学习的变比例系数多弹协同制导方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于强化学习的变比例系数多弹协同制导方法，其特征在于：所述步骤1将三维空间中的多弹协同打击过程描述为马尔可夫决策过程，具体包括：

3.根据权利要求2所述的一种基于强化学习的变比例系数多弹协同制导方法，其特征在于：所述设计奖励函数的具体过程为，

4.根据权利要求3所述的一种基于强化学习的变比例系数多弹协同制导方法，其特征在于：所述步骤1马尔可夫决策过程的奖励函数是利用弹目距离和剩余飞行时间一致性误差进行构建。

5.根据权利要求4所述的一种基于强化学习的变比例系数多弹协同制导方法，其特征在于：导弹与目标之间的非线性交战动力学方程为其中ri为第i枚导弹与目标之间的相对距离，为第i枚导弹与目标之间的视线倾角，为第i枚导弹与目标之间的视线偏角，θi为第i枚导弹与目标之间的俯仰前置角，ψi为第i枚导弹与目标之间的偏航前置角，σi为第i枚导弹的总前置角，为第i枚导弹在俯仰方向上的控制力，为第i枚导弹在偏航方向上的控制力。

6.根据

7.根据权利要求6所述的一种基于强化学习的变比例系数多弹协同制导方法，其特征在于：所述步骤3基于步骤1中的多弹协同拦截马尔可夫决策过程以及步骤2中的强化学习框架，进行强化学习智能体训练，具体包括：

8.根据权利要求7所述的一种基于强化学习的变比例系数多弹协同制导方法，其特征在于：所述步骤4基于步骤3已经训练完成的多弹协同拦截智能体，根据多弹实时状态，实时计算多弹比例导引系数，进而进行多弹协同打击目标，具体包括：

9.一种基于强化学习的变比例系数多弹协同制导系统，包括弹群运动学计算单元、导弹剩余飞行时间计算单元和弹群制导控制单元，其特征在于：弹群运动学计算单元，用于提取弹群中每枚导弹的制导运动学信息；

...

【技术特征摘要】

1.一种基于强化学习的变比例系数多弹协同制导方法，其特征在于，包括如下步骤：

3.根据权利要求2所述的一种基于强化学习的变比例系数多弹协同制导方法，其特征在于：所述设计奖励函数的具体过程为，

【专利技术属性】
技术研发人员：宋申民，顾振，康鸿龙，李建锋，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人