基于深度强化学习的空空导弹越肩发射制导律设计方法技术

技术编号:33540740 阅读:54 留言:0更新日期:2022-05-21 09:47
本发明专利技术一种基于深度强化学习的空空导弹越肩发射制导律设计方法,包括步骤如下:步骤1,对越肩发射进行归一化动力学建模;对模型进行归一化使各状态量具有相近的量级,从而使神经网络的权重更新能够更加稳定;步骤2,为了适应强化学习的研究范式,需要将步骤1中的研究问题建模为马尔科夫决策过程;步骤3,搭建算法网络,设置算法参数;选用的深度学习算法为近端策略优化算法PPO,步骤4,在训练达到目标奖励值或最大步数之前,智能体将根据PPO算法不断收集状态转移数据及奖励,并不断迭代更新Actor网络和Critic网络的参数。应用本发明专利技术的技术方案,可以使导弹在复杂的气动环境中获得具有次优性和鲁棒性的攻角制导律,且考虑了导弹不同机动能力的限制,在未来空战中具有实用价值。价值。价值。

【技术实现步骤摘要】
基于深度强化学习的空空导弹越肩发射制导律设计方法


[0001]本专利技术涉及飞行器控制领域,具体而言,涉及基于深度强化学习的空空导弹越肩发射制导律设计方法。

技术介绍

[0002]在现代空战中,随着战机机动能力的不断增强,近距格斗的场景也愈加复杂。为了提高战机在近距格斗中的作战能力,能够攻击后半球目标的越肩发射方式成为研究的重点。采用越肩发射方式的空空导弹可以在发射后迅速改变飞行方向,在导引头锁定目标后进入末制导阶段,从而使导弹具备全向攻击能力。然而导弹在大攻角转向阶段将面临如不对称涡脱落、诱导力矩等复杂的气动现象,属于典型的强非线性高不确定性系统,因此对导弹的制导与控制系统提出更高的要求。
[0003]目前关于越肩发射的研究主要集中于鲁棒的驾驶仪设计,而关于制导律设计的方法相对较少。目前普遍采用的方式为用驾驶仪跟踪离线优化弹道或常值攻角,但在复杂的气动环境以及瞬息万变的空战态势下很容易在越肩发射后丢失目标。合适的制导律不仅可以适应战场动态变化,而且可以降低驾驶仪设计负担,提高导弹制导控制系统整体的鲁棒性。
[0004]进一步考虑到目前导弹型号的机动能力和未来发展潜力,所设计的基于深度强化学习的制导律可以方便设置导弹的最大可用攻角,从而增大了本专利技术可能的适用范围与实施的现实可能性。在日益复杂的空战环境和高机动战机的挑战下,本专利技术提出的智能制导律具有重要的应用价值。

技术实现思路

[0005]本专利技术的主要目的在于提供一种基于深度强化学习的空空导弹越肩发射制导律设计方法,以至少解决上述问题。
[0006]根据本专利技术的一方面,提供了一种基于深度强化学习的空空导弹越肩发射制导律设计方法,包括:
[0007]步骤1,对越肩发射进行归一化动力学建模。对模型进行归一化可以使各状态量具有相近的量级,从而使神经网络的权重更新能够更加稳定。首先对导弹越肩发射的场景进行建模,可以得到气动系下的动力学方程与惯性系下的运动学方程以及考虑质量变化的方程。
[0008]步骤2,进一步地,为了适应强化学习的研究范式,需要将步骤1中的研究问题建模为马尔科夫决策过程。具体过程包括步骤201至步骤203。
[0009]步骤201,动作空间设置。为了保证系统动态的平稳性,选用攻角α的一阶导数作为系统输入。此外,将作为动作还可以方便满足导弹的机动能力限制。但随着未来空空导弹机动能力的发展,尤其是在推力矢量或反作用喷气的辅助下,可用攻角的限制也将随之取消。
[0010]步骤202,状态空间及观测空间设置。在步骤201设置动作的基础上,设置智能体的状态空间和观测空间,但并不是系统中所有的状态都对控制指令的决策有意义。冗余的观测将导致训练的不稳定,而不足的观测则容易直接导致训练不收敛。
[0011]步骤203,奖励函数设置。奖励函数的设置对最终训练效果有着重要的影响,为了避免奖励稀疏,这里设计的奖励函数为其中为期望转弯角度,θ
M
为导弹弹道倾角,λ1,λ2,λ3为需要设置的超参数,用于调节各项之间的比例。且为了提高最终转弯精确度,引入额外奖励r
bonus
,其值为其中r
b
为在满足精度条件时的额外奖励,r
b
需要与前面各项相协调以保证智能体在理想精度θ
thre
内获得合适的奖励。
[0012]步骤3,搭建算法网络,设置算法参数。本专利技术中选用的深度学习算法为近端策略优化算法(Proximal Policy Optimization,PPO),该算法包含Actor网络和Critic网络,网络权重参数采用随机化参数。
[0013]步骤4,在训练达到目标奖励值或最大步数之前,智能体将根据PPO算法不断收集状态转移数据及奖励,并不断迭代更新Actor网络和Critic网络的参数。具体包括步骤401至步骤404。
[0014]步骤401,在当前策略下收集轨迹数据并缓存至经验池,直至经验池存满。在每个仿真步长中,对于当前观测值o
t
,执行当前策略得到当前动作a
t
,并根据系统动力学方程积分得到下一时刻的状态s
t+1
和观测o
t+1
,同时获得奖励r
t

[0015]步骤402,采用广义优势估计(generalized advantage estimator,GAE)的方法估计优势函数最终的优化目标其中c
vf
和c
s
是调整各项比例的超参数。为增加更有优势的动作的概率的截断目标,为值函数损失项,为鼓励探索的最大化熵项。
[0016]步骤403,从经验池中按照batch的大小取出轨迹数据,并将优化目标J
PPO
(θ)采用随机梯度下降的方式优化Actor网络和Critic网络的参数,直到经验池中数据完成K个epoch的更新。
[0017]步骤404,考虑到初始转弯指令的随机性,比较新旧策略所获累积奖励的期望,更新最终输出的网络参数。
[0018]步骤405,重复步骤401至步骤404直至训练得到目标奖励值或达到最大训练步数,得到Actor网络将作为最终的策略网络可以直接部署在弹载计算机上,实时生成攻角制导指令。
[0019]本专利技术的优点及有益效果在于:应用本专利技术的技术方案,可以使导弹在复杂的气动环境中获得具有次优性和鲁棒性的攻角制导律,且考虑了导弹不同机动能力的限制,在未来空战中具有实用价值。
附图说明
[0020]图1为根据本专利技术的具体实施例提供的空空导弹越肩发射平面交战几何示意图。
[0021]图2为根据本专利技术的具体实施例提供的采用PPO算法的智能体与环境交互的示意图。
[0022]图3为根据本专利技术的具体实施例提供的导弹分别在机动能力受限制和不受限制两种情况下的学习曲线。
[0023]图4a为导弹在机动能力受限制时的转弯角度收敛曲线。
[0024]图4b为导弹在机动能力不受限制时的转弯角度收敛曲线。
[0025]图5a为根据本专利技术的具体实施例提供的机动能力受限制的智能体与最优解的导弹速度随时间变化曲线。
[0026]图5b为根据本专利技术的具体实施例提供的机动能力受限制的智能体与最优解的导弹攻角随时间变化曲线。
[0027]图5c为根据本专利技术的具体实施例提供的机动能力受限制的智能体与最优解的导弹弹道倾角随时间变化曲线。
[0028]图5d为根据本专利技术的具体实施例提供的机动能力受限制的智能体与最优解的导弹在纵平面的弹道曲线。
[0029]图6a为根据本专利技术的具体实施例提供的机动能力不受限制的智能体与最优解的导弹速度随时间变化曲线。
[0030]图6b为根据本专利技术的具体实施例提供的机动能力不受限制的智能体与最优解的导弹攻角随时间变化曲线。
[0031]图6c为根据本专利技术的具体实施例提供的机动能力不受限制的智能体与最优解的导弹弹道倾角随时间变化曲线。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的空空导弹越肩发射制导律设计方法,其特征在于,包括步骤如下:步骤1,对越肩发射进行归一化动力学建模;对模型进行归一化使各状态量具有相近的量级,从而使神经网络的权重更新能够更加稳定;首先对导弹越肩发射的场景进行建模,得到气动系下的动力学方程与惯性系下的运动学方程以及考虑质量变化的方程;步骤2,为了适应强化学习的研究范式,需要将步骤1中的研究问题建模为马尔科夫决策过程;步骤3,搭建算法网络,设置算法参数;选用的深度学习算法为近端策略优化算法PPO,该算法包含Actor网络和Critic网络,网络权重参数采用随机化参数;步骤4,在训练达到目标奖励值或最大步数之前,智能体将根据PPO算法不断收集状态转移数据及奖励,并不断迭代更新Actor网络和Critic网络的参数。2.根据权利要求1所述的基于深度强化学习的空空导弹越肩发射制导律设计方法,其特征在于:在步骤1中,方程具体为:特征在于:在步骤1中,方程具体为:特征在于:在步骤1中,方程具体为:特征在于:在步骤1中,方程具体为:其中为导弹归一化后飞行速度,为归一化后弹道倾角,为归一化后横坐标,为归一化后纵坐标,为前述各量相应变化率,而V
*
、θ
*
、x
*
、y
*
为前述各量相应的归一化因子;此外α为导弹攻角,P为主发动机推力,T
rcs
为反作用喷气发动机推力,u
p
和u
rcs
分别为主发动机和反作用喷气发动机的开关机逻辑量,F
D
和F
L
分别为具有较强不确定性的阻力和升力,m为导弹质量,m
c
为质量流量,g为重力加速度常数。3.根据权利要求1所述的基于深度强化学习的空空导弹越肩发射制导律设计方法,其特征在于:在步骤2中,具体过程包括步骤201至步骤203;步骤201,动作空间设置;为了保证系统动态的平稳性,选用攻角α的一阶导数作为系统输入;此外,将作为动作还能满足导弹的机动能力限制;但随着未来空空导弹机动能力的发展,尤其是在推力矢量或反作用喷气的辅助下,用攻角的限制也将随之取消;步骤202,状态空间及观测空间设置;在步骤201设置动作的基础上,设置智能体的状态空间和观测空间,但并不是系统中所有的状态都对控制指令的决策有意义;冗余的观测将导致训练的不稳定,而不足的观测则容易直接导致训练不收敛;步骤203,奖励函数设置;奖励函数的设置对最终训练效果有着重要的影响,为了避免奖励稀疏,这里设计的奖励函数为其中为期望转弯角度,θ
M
为导弹弹道倾角,λ1,λ2,λ3为需要设置的超参数,用于调节各项之间的比例;
且为了提高最终转弯精确度,引入额外奖励r
bonus
,其值为其中r
b
为在满足精度条件时的额外奖励,r
b
需要与前面各项相协调以保证智能体在理想精度θ
thre
内获得合适的奖励。4.根据权利要求1所述的基于深度强化学习的空空导弹越肩发射制导律设计方法,其特征在于:在步骤4中,具体包括步骤401至步骤404;步骤401,在当前策略下收集轨迹数据并缓存至经验池,直至经验池存满;在每个仿真步长中,对于当前观测值o
t
,执行当前策略得到当前动作a
t
,并根据系统动力学方程积分得到下一时刻的状态s
t+1
和观测...

【专利技术属性】
技术研发人员:陈万春龚晓鹏陈中原
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1