一种基于近端策略优化的双机空战决策方法技术

技术编号:31163598 阅读:23 留言:0更新日期:2021-12-04 10:35
本发明专利技术公开了一种基于近端策略优化的双机空战决策方法,首先分别构建无人机的近端策略优化中的策略神经网络Actor模块和价值神经网络Critic模块;然后建立无人机对战的飞机模型和导弹模型,接下来将无人机所处的状态信息输入各自的策略神经网络中,然后通过策略神经网络选择动作,在作战环境中执行所选动作并得到回报;将我机和敌机的状态信息归一化后,将信息打包成四元组存入经验池中;当经验池的数据量达到所设定的最小训练数据量时,对价值神经网络和策略神经网络进行训练,更新我机和敌机的动作选取策略;最终得到训练好的我机和敌机的策略神经网络和价值神经网络。本发明专利技术方法收敛性强、实时性好,且具有一定的鲁棒性,具有较好的可行性。较好的可行性。较好的可行性。

【技术实现步骤摘要】
一种基于近端策略优化的双机空战决策方法


[0001]本专利技术属于无人机
,具体涉及一种双机空战决策方法。

技术介绍

[0002]在当今的信息化智能化时代,无人机的应用领域越来越广泛,除了应用于地质勘探、巡检、航拍等民用领域,也越来越多地被应用于侦察监视、预警、电子对抗、补给运输和歼击轰炸等军事目的。随着无人机所要执行的任务越来越复杂,无人机操作手工作的任务量和复杂度都大幅增加。为减轻操作手的工作负担并提升无人机工作效率,市场对于无人机的智能化程度要求越来越高,希望无人机能够独自完成多种复杂的任务。空战决策是其中最为复杂的任务。
[0003]空战战术决策方法大致归纳为传统基于规则的非学习策略和基于智能算法的自我学习策略两种。基于规则的非学习策略主要是根据空战格斗中既定的行为规则来进行机动动作的选择,决策形成过程中没有基于数据的训练、优化自身策略的过程。自我学习的空战决策方法核心是基于一些智能算法进行空战决策的建模和优化,通过自身的经验来优化自身决策模型的结构和参数。其中,深度强化学习方法既关注了短期的利益,又考虑到了长远的回报,所选出来的动作具有较强的合理性和实时性,对于环境也有一定的自适应性,相比于其他算法具有明显的优势。
[0004]深度强化学习是机器学习的重要分支,是由Minsky,Lee M于1954年提出的一种仿生算法。强化学习算法通过智能体不断与环境进行交互试错得到奖励或惩罚,然后根据所得的奖励或惩罚改进动作选择策略,从而进行学习。深度强化学习将深度学习和强化学习相结合,通过引入神经网络解决了复杂系统中数据量过大的问题。在多种深度强化学习算法中,近端策略优化算法(Proximal Policy Optimization,PPO)既解决了策略梯度算法(Policy Gradient)中步长选取困难的问题,又解决了由此带来的优化策略差的问题,是目前效果最好的算法之一。

技术实现思路

[0005]为了克服现有技术的不足,本专利技术提供了一种基于近端策略优化的双机空战决策方法,首先分别构建无人机的近端策略优化中的策略神经网络Actor模块和价值神经网络Critic模块;然后建立无人机对战的飞机模型和导弹模型,接下来将无人机所处的状态信息输入各自的策略神经网络中,然后通过策略神经网络选择动作,在作战环境中执行所选动作并得到回报;将我机和敌机的状态信息归一化后,将信息打包成四元组存入经验池中;当经验池的数据量达到所设定的最小训练数据量时,对价值神经网络和策略神经网络进行训练,更新我机和敌机的动作选取策略;最终得到训练好的我机和敌机的策略神经网络和价值神经网络。本专利技术方法收敛性强、实时性好,且具有一定的鲁棒性,具有较好的可行性。
[0006]本专利技术解决其技术问题所采用的技术方案包括如下步骤:
[0007]步骤1:将无人机对战双方分为我方和敌方,我方无人机为我机,敌方无人机为敌
机;分别构建我机与敌机的近端策略优化中的策略神经网络Actor模块和价值神经网络Critic模块;
[0008]步骤2:建立无人机对战的飞机模型和导弹模型,在飞机模型中分别设定我机和敌机的初始位置、初始速度、初始俯仰角和初始滚转角,并在导弹模型中设定所携带的导弹数量以及空战环境大小;
[0009]步骤3:我机和敌机分别将自身所处的状态信息输入各自的策略神经网络中,然后通过策略神经网络选择动作,在作战环境中执行所选动作并得到回报;
[0010]步骤4:将我机和敌机的状态信息归一化后,与在步骤3选择的动作和得到的回报打包成四元组<s
t
,a
t
,s
t+1
,r
t+1
>存入经验池中,s
t
表示当前状态,s
t+1
表示下一时刻状态,a
t
表示当前状态选择的动作,r
t+1
表示下一时刻状态得到的回报;
[0011]步骤5:重复步骤3和步骤4,当经验池的数据量达到所设定的最小训练数据量时,从经验池中采样一批次样本,将我机和敌机的状态信息、选择动作和得到回报都分别输入至我机和敌机各自的价值神经网络中,对价值神经网络进行训练;然后再将我机和敌机各自的状态信息分别输入至各自的策略神经网络中,并结合价值神经网络中的优势函数对我机和敌机的策略神经网络进行训练,更新我机和敌机的动作选取策略;
[0012]步骤6:重复步骤3至步骤5,直至达到训练结束条件,得到训练好的我机和敌机的策略神经网络和价值神经网络。
[0013]步骤7:我机和敌机通过将自身的状态输入至训练好的策略神经网络选择动作进行空战。
[0014]进一步地,所述步骤2的具体步骤如下:
[0015]步骤2

1:建立无人机的六自由度运动方程如式(1),即飞机模型;
[0016][0017]式中,v为无人机速度,θ为无人机俯仰角,为无人机滚转角,ψ为无人机偏航角,N
x
为切向过载,N
z
为法相过载;
[0018]使用无人机的切向过载N
x
、法向过载N
z
和滚转角进行动作编码,即使用三元组表示无人机在每个时刻采取的动作;表1展示了七种不同的无人机机动动作指令对应的编码方式;
[0019]表1七种不同的机动动作指令对应的编码方式
[0020][0021]则无人机状态更新的计算表示为:
[0022]s
t+1
=f(s
t
,a
r
,a
b
)
ꢀꢀꢀ
(2)
[0023]式中,a
r
和b
r
分别表示单步决策中我机和敌机所选择的机动动作,f(.)表示依据式(1)的运动学微分方程构建的状态更新函数;
[0024]步骤2

2:建立导弹模型;
[0025]导弹模型包括导弹攻击区模型和敌机击毁概率P;
[0026]步骤2
‑2‑
1:导弹攻击区模型;
[0027]决定导弹性能的参数为最大离轴发射角最大最小攻击距离D
M max
和D
M min
、最大和最小不可逃逸距离D
Mk max
和D
Mk min
、以及圆锥角
[0028]当满足条件式(3)时,敌机进入我方导弹攻击区:
[0029]Area
ack
={Pos(Target)|d<DMmax
Mmax
}
ꢀꢀꢀ
(3)
[0030]其中,Area
ack
表示导弹攻击区,ATA表示偏离角,Pos(Target)表示敌机位置,d表示敌机与我机的距离;
[0031]将我方导弹攻击区分为5个部分,定义如下:
[0032]当且D
...

【技术保护点】

【技术特征摘要】
1.一种基于近端策略优化的双机空战决策方法,其特征在于,包括以下步骤:步骤1:将无人机对战双方分为我方和敌方,我方无人机为我机,敌方无人机为敌机;分别构建我机与敌机的近端策略优化中的策略神经网络Actor模块和价值神经网络Critic模块;步骤2:建立无人机对战的飞机模型和导弹模型,在飞机模型中分别设定我机和敌机的初始位置、初始速度、初始俯仰角和初始滚转角,并在导弹模型中设定所携带的导弹数量以及空战环境大小;步骤3:我机和敌机分别将自身所处的状态信息输入各自的策略神经网络中,然后通过策略神经网络选择动作,在作战环境中执行所选动作并得到回报;步骤4:将我机和敌机的状态信息归一化后,与在步骤3选择的动作和得到的回报打包成四元组<s
t
,a
t
,s
t+1
,r
t+1
>存入经验池中,s
t
表示当前状态,s
t+1
表示下一时刻状态,a
t
表示当前状态选择的动作,r
t+1
表示下一时刻状态得到的回报;步骤5:重复步骤3和步骤4,当经验池的数据量达到所设定的最小训练数据量时,从经验池中采样一批次样本,将我机和敌机的状态信息、选择动作和得到回报都分别输入至我机和敌机各自的价值神经网络中,对价值神经网络进行训练;然后再将我机和敌机各自的状态信息分别输入至各自的策略神经网络中,并结合价值神经网络中的优势函数对我机和敌机的策略神经网络进行训练,更新我机和敌机的动作选取策略;步骤6:重复步骤3至步骤5,直至达到训练结束条件,得到训练好的我机和敌机的策略神经网络和价值神经网络。步骤7:我机和敌机通过将自身的状态输入至训练好的策略神经网络选择动作进行空战。2.根据权利要求1所述的一种基于近端策略优化的双机空战决策方法,其特征在于,所述步骤2的具体步骤如下:步骤2

1:建立无人机的六自由度运动方程如式(1),即飞机模型;式中,v为无人机速度,θ为无人机俯仰角,为无人机滚转角,ψ为无人机偏航角,N
x
为切向过载,N
z
为法相过载;使用无人机的切向过载N
x
、法向过载N
z
和滚转角进行动作编码,即使用三元组表示无人机在每个时刻采取的动作;表1展示了七种不同的无人机机动动作指令
对应的编码方式;表1七种不同的机动动作指令对应的编码方式则无人机状态更新的计算表示为:s
t+1
=f(s
t
,a
r
,a
b
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)式中,a
r
和b
r
分别表示单步决策中我机和敌机所选择的机动动作,f(.)表示依据式(1)的运动学微分方程构建的状态更新函数;步骤2

2:建立导弹模型;导弹模型包括导弹攻击区模型和敌机击毁概率P;步骤2
‑2‑
1:导弹攻击区模型;决定导弹性能的参数为最大离轴发射角最大最小攻击距离D
Mmax
和D
Mmin
、最大和最小不可逃逸距离D
Mkmax
和D
Mkmin
、以及圆锥角当满足条件式(3)时,敌机进入我方导弹攻击区:Area
ack
={Pos(Target)|d<DMmax
Mmax
}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中,Area
ack
表示导弹攻击区,ATA表示偏离角,Pos(Target)表示敌机位置,d表示敌机与我机的距离;将我方导弹攻击区分为5个部分,定义如下:当且D
Mkmin
<d<D
Mkmax
时,敌机处于攻击区的

区;当且D
Mmin
<d<D
Mkmin
时,敌机处于攻击区的

区;当且D
Mkmax
<d<D
Mmax
时,敌机处于攻击区的

区;当且D
Mmin
<d<D
Mmax
时,敌机处于

区或者

区;步骤2
‑2‑
2:敌机击...

【专利技术属性】
技术研发人员:刘小雄苏玉展尹逸秦斌韦大正
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1