基于深度强化学习的空空导弹越肩发射制导律设计方法技术

技术编号：33540740 阅读：54 留言：0更新日期：2022-05-21 09:47

本发明专利技术一种基于深度强化学习的空空导弹越肩发射制导律设计方法，包括步骤如下：步骤1，对越肩发射进行归一化动力学建模；对模型进行归一化使各状态量具有相近的量级，从而使神经网络的权重更新能够更加稳定；步骤2，为了适应强化学习的研究范式，需要将步骤1中的研究问题建模为马尔科夫决策过程；步骤3，搭建算法网络，设置算法参数；选用的深度学习算法为近端策略优化算法PPO，步骤4，在训练达到目标奖励值或最大步数之前，智能体将根据PPO算法不断收集状态转移数据及奖励，并不断迭代更新Actor网络和Critic网络的参数。应用本发明专利技术的技术方案，可以使导弹在复杂的气动环境中获得具有次优性和鲁棒性的攻角制导律，且考虑了导弹不同机动能力的限制，在未来空战中具有实用价值。价值。价值。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度强化学习的空空导弹越肩发射制导律设计方法

[0001]本专利技术涉及飞行器控制领域，具体而言，涉及基于深度强化学习的空空导弹越肩发射制导律设计方法。

技术介绍

[0002]在现代空战中，随着战机机动能力的不断增强，近距格斗的场景也愈加复杂。为了提高战机在近距格斗中的作战能力，能够攻击后半球目标的越肩发射方式成为研究的重点。采用越肩发射方式的空空导弹可以在发射后迅速改变飞行方向，在导引头锁定目标后进入末制导阶段，从而使导弹具备全向攻击能力。然而导弹在大攻角转向阶段将面临如不对称涡脱落、诱导力矩等复杂的气动现象，属于典型的强非线性高不确定性系统，因此对导弹的制导与控制系统提出更高的要求。
[0003]目前关于越肩发射的研究主要集中于鲁棒的驾驶仪设计，而关于制导律设计的方法相对较少。目前普遍采用的方式为用驾驶仪跟踪离线优化弹道或常值攻角，但在复杂的气动环境以及瞬息万变的空战态势下很容易在越肩发射后丢失目标。合适的制导律不仅可以适应战场动态变化，而且可以降低驾驶仪设计负担，提高导弹制导控制系统整体的鲁棒性。
[0004]进一步考虑到目前导弹型号的机动能力和未来发展潜力，所设计的基于深度强化学习的制导律可以方便设置导弹的最大可用攻角，从而增大了本专利技术可能的适用范围与实施的现实可能性。在日益复杂的空战环境和高机动战机的挑战下，本专利技术提出的智能制导律具有重要的应用价值。

技术实现思路

[0005]本专利技术的主要目的在于提供一种基于深度强化学习的空空导弹越肩发射制导律设计方法，以至少...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的空空导弹越肩发射制导律设计方法，其特征在于，包括步骤如下：步骤1，对越肩发射进行归一化动力学建模；对模型进行归一化使各状态量具有相近的量级，从而使神经网络的权重更新能够更加稳定；首先对导弹越肩发射的场景进行建模，得到气动系下的动力学方程与惯性系下的运动学方程以及考虑质量变化的方程；步骤2，为了适应强化学习的研究范式，需要将步骤1中的研究问题建模为马尔科夫决策过程；步骤3，搭建算法网络，设置算法参数；选用的深度学习算法为近端策略优化算法PPO，该算法包含Actor网络和Critic网络，网络权重参数采用随机化参数；步骤4，在训练达到目标奖励值或最大步数之前，智能体将根据PPO算法不断收集状态转移数据及奖励，并不断迭代更新Actor网络和Critic网络的参数。2.根据权利要求1所述的基于深度强化学习的空空导弹越肩发射制导律设计方法，其特征在于：在步骤1中，方程具体为：特征在于：在步骤1中，方程具体为：特征在于：在步骤1中，方程具体为：特征在于：在步骤1中，方程具体为：其中为导弹归一化后飞行速度，为归一化后弹道倾角，为归一化后横坐标，为归一化后纵坐标，为前述各量相应变化率，而V
*
、θ
*
、x
*
、y
*
为前述各量相应的归一化因子；此外α为导弹攻角，P为主发动机推力，T
rcs
为反作用喷气发动机推力，u
p
和u
rcs
分别为主发动机和反作用喷气发动机的开关机逻辑量，F
D
和F
L
分别为具有较强不确定性的阻力和升力，m为导弹质量，m
c
为质量流量，g为重力加速度常数。3.根据权利要求1所述的基于深度强化学习的空空导弹越肩发射制导律设计方法，其特征在于：在步骤2中，具体过程包括步骤201至步骤203；步骤201，动作空间设置；为了保证系统动态的平稳性，选用攻角α的一阶导数作为系统输入；此外，将作为动作还能满足导弹的机动能力限制；但随着未来空空导弹机动能力的发展，尤其是在推力矢量或反作用喷气的辅助下，用攻角的限制也将随之取消；步骤202，状态空间及观测空间设置；在步骤201设置动作的基础上，设置智能体的状态空间和观测空间，但并不是系统中所有的状态都对控制指令的决策有意义；冗余的观测将导致训练的不稳定，而不足的观测则容易直接导致训练不收敛；步骤203，奖励函数设置；奖励函数的设置对最终训练效果有着重要的影响，为了避免奖励稀疏，这里设计的奖励函数为其中为期望转弯角度，θ
M
为导弹弹道倾角，λ1，λ2，λ3为需要设置的超参数，用于调节各项之间的比例；
且为了提高最终转弯精确度，引入额外奖励r
bonus
，其值为其中r
b
为在满足精度条件时的额外奖励，r
b
需要与前面各项相协调以保证智能体在理想精度θ
thre
内获得合适的奖励。4.根据权利要求1所述的基于深度强化学习的空空导弹越肩发射制导律设计方法，其特征在于：在步骤4中，具体包括步骤401至步骤404；步骤401，在当前策略下收集轨迹数据并缓存至经验池，直至经验池存满；在每个仿真步长中，对于当前观测值o
t
，执行当前策略得到当前动作a
t
，并根据系统动力学方程积分得到下一时刻的状态s
t+1
和观测...

【专利技术属性】
技术研发人员：陈万春，龚晓鹏，陈中原，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人