基于深度强化学习的舰船导弹目标分配方法、装置和设备制造方法及图纸

技术编号:36082780 阅读:12 留言:0更新日期:2022-12-24 10:57
本申请涉及武器目标分配技术领域的一种基于深度强化学习的舰船导弹目标分配方法、装置和设备。该方法包括:构建舰船多类型导弹目标分配数学模型,基于该数学模型建立由四元组构成的马尔可夫决策过程;构建基于Transformer模型的融合注意力机制的深度强化学习模型;该模型用于根据当前舰船态势感知中所知的战场信息实现舰船导弹目标分配决策;采用带基线的策略梯度法训练深度强化学习模型;根据马尔可夫决策过程中当前时间步下的四元组信息,采用训练后的融合注意力机制的深度强化学习模型对舰船导弹目标进行分配。本方法能快速、高效的生成高收益的导弹目标分配方案,提高了导弹目标分配收益、分配时效。分配时效。分配时效。

【技术实现步骤摘要】
基于深度强化学习的舰船导弹目标分配方法、装置和设备


[0001]本申请涉及武器目标分配
,特别是涉及一种基于深度强化学习的舰船导弹目标分配方法、装置和设备。

技术介绍

[0002]目前,海上舰船在作战中面临着严重的空中威胁,随着海上战场的作战样式和武器装备越来越复杂,无论是各式中程弹道导弹以及低空掠海的反舰导弹(Anti

ship Missile,ASM)都能给海上舰船及其编队带来巨大的打击,使得海上舰船防空反导作战面临极大挑战。舰载导弹作为舰船打击或拦截进攻性目标的主要武器资源,造价成本高昂且数量有限,因而高效合理地协调各类导弹资源即武器目标分配(Weapon

target Allocation,WTA)在舰船防空反导作战中非常重要,同时也是指挥与控制研究中的一个关键问题。
[0003]海上舰船防空的导弹目标分配问题(Missile

target Allocation,MTA)是一个典型的WTA问题,国内外研究主要侧重于防御方,一般是在态势感知的基础上,优先以最小化要地损失和最小化资源消耗为优化目标,考虑资源、空间关系等约束建立数学模型,实现舰船导弹资源的高效利用。WTA问题有两个不同的类别:静态武器目标分配(SWTA)和动态武器目标分配(DWTA)。SWTA只考虑静态和瞬时决策,不考虑时间维度;而DWTA则考虑了导弹和目标的时间窗以及做出决策后到目标是否击中的后续决策的动态过程,一般采用“射



射”的模式进行交互,理论上DWTA问题中可以进行多个阶段的目标打击,而其中每个阶段可视为一个SWTA问题。
[0004]WTA是一类NP难问题,有学者应用了精确式方法如分支定界、整数规划、穷举法等进行求解,但由于搜索解空间的计算量随问题规模呈指数增长,这些方法只适用于解决小规模问题。随着现代海上舰船防空反导作战中导弹和目标数量的激增,使用传统精确算法求解MTA问题,需要较长的计算时间,其决策的时效性不能满足实际需求。目前,国内外解决舰船防空反导的武器目标分配问题的思路主要分为两类:基于智能优化算法和基于学习的方法。智能优化算法包括遗传算法、蚁群算法、粒子群算法、邻域搜索方法和其他各种混合优化算法。然而智能优化算法需针对各种特定场景设计相应的编码或搜索结构,并且存在易陷入局部最优、求解时效性难以满足防空反导作战需求等问题。除此之外还有一些运用基于规则策略的智能优化方法来分配方案,这种方法能够较快的产生符合规则的解,但其规则制定十分依赖经验知识,因此解的质量无法保证且难以扩展到其他的复杂场景。
[0005]基于学习的方法在无人集群控制决策、游戏对抗、车辆路径规划、卫星调度等方面已经展现出了突出潜力,而在防空反导的目标分配决策研究相对较少。
[0006]综上所述,如何实时、高效的解决规模较大、实时对抗的复杂WTA问题仍然是当前的热点和难点。

技术实现思路

[0007]基于此,有必要针对上述技术问题,提供一种基于深度强化学习的舰船导弹目标
分配方法、装置和设备。
[0008]一种基于深度强化学习的舰船导弹目标分配方法,所述方法包括:
[0009]建立舰船导弹目标分配数学模型。
[0010]根据舰船导弹目标分配数学模型建立由四元组构成的马尔可夫决策过程。
[0011]构建基于Transformer模型的融合注意力机制的深度强化学习模型;所述融合注意力机制的深度强化学习模型用于根据当前舰船态势感知中所知的战场信息实现舰船导弹目标分配决策。
[0012]采用带基线的策略梯度法训练所述融合注意力机制的深度强化学习模型。
[0013]根据马尔可夫决策过程中当前时间步下的四元组信息,采用训练后的融合注意力机制的深度强化学习模型对舰船导弹目标进行分配。
[0014]一种基于深度强化学习的舰船导弹目标分配装置,所述装置包括:
[0015]数学建模模块,用于建立舰船导弹目标分配数学模型。
[0016]马尔可夫决策过程构建模块,用于根据舰船导弹目标分配数学模型建立由四元组构成的马尔可夫决策过程。
[0017]融合注意力机制的深度强化学习模型构建模块,用于构建基于Transformer模型的融合注意力机制的深度强化学习模型;所述融合注意力机制的深度强化学习模型用于根据当前舰船态势感知中所知的战场信息实现舰船导弹目标分配决策。
[0018]融合注意力机制的深度强化学习模型训练模块,用于采用带基线的策略梯度法训练所述融合注意力机制的深度强化学习模型。
[0019]舰船导弹目标分配模块,用于根据马尔可夫决策过程中当前时间步下的四元组信息,采用训练后的融合注意力机制的深度强化学习模型对舰船导弹目标进行分配。
[0020]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一所述方法。
[0021]上述基于深度强化学习的舰船导弹目标分配方法、装置和设备,所述方法包括:构建舰船多类型导弹目标分配数学模型,基于该数学模型建立由四元组构成的马尔可夫决策过程;构建基于Transformer模型的融合注意力机制的深度强化学习模型;该模型用于根据当前舰船态势感知中所知的战场信息实现舰船导弹目标分配决策;采用带基线的策略梯度法训练融合注意力机制的深度强化学习模型;根据马尔可夫决策过程中当前时间步下的四元组信息,采用训练后的融合注意力机制的深度强化学习模型对舰船导弹目标进行分配。本方法能快速、高效的生成高收益的导弹目标分配方案,提高了导弹目标分配收益、分配时效。
附图说明
[0022]图1为一个实施例中海上舰船防空反导示意图;
[0023]图2为一个实施例中基于深度强化学习的舰船导弹目标分配方法的流程示意图;
[0024]图3为一个实施例中基于Transformer模型的融合注意力机制的深度强化学习模型的结构示意图;
[0025]图4为另一个实施例中不同方法的计算结果;
[0026]图5为一个实施例中不同模型训练收敛情况,其中(a)为使用LSTM替换CAMDRL模型
中Decoder部分后的网络,(b)为传统的seq2seq网络,4(c)为使用本专利技术CAMDRL模型,(d)为是三个网络前1000个episode的收敛图;
[0027]图6为另一个实施例中不同比率下CAMDRL模型收益情况;
[0028]图7为一个实施例中基于深度强化学习的舰船导弹目标分配装置的结构框图;
[0029]图8为一个实施例中计算机设备的内部结构图。
具体实施方式
[0030]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0031]海上舰船防空反导示意图如图1所示。其中,防御方为带有防空本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的舰船导弹目标分配方法,其特征在于,所述方法包括:建立舰船导弹目标分配数学模型;根据舰船导弹目标分配数学模型建立由四元组构成的马尔可夫决策过程;构建基于Transformer模型的融合注意力机制的深度强化学习模型;所述融合注意力机制的深度强化学习模型用于根据当前舰船态势感知中所知的战场信息实现舰船导弹目标分配决策;采用带基线的策略梯度法训练所述融合注意力机制的深度强化学习模型;根据马尔可夫决策过程中当前时间步下的四元组信息,采用训练后的融合注意力机制的深度强化学习模型对舰船导弹目标进行分配。2.根据权利要求1所述的方法,其特征在于,建立舰船导弹目标分配数学模型,包括:获取当前舰船携带的防空导弹类型数量k、各类型防空导弹针对来袭目标的拦截距离集合D={D1,D2,...,D
k
}、各类型防空导弹成功命中来袭目标的概率集合DP={dp1,dp2,...,dp
k
}、各类型防空导弹的飞行速度集合VS={vs1,vs2,...,vs
k
};其中,k为大于1的整数,集合D中的D
i
为第i类防空导弹针对来袭目标的拦截距离,集合DP中的dp
i
为第i类防空导弹成功命中来袭目标的概率,集合VS中的vs
i
为第i类防空导弹的飞行速度,i=1,2,

,k;获取舰船要防御从空中来袭并进入其拦截探测范围的进攻方反舰导弹集合N={1,2,...,n}、来袭的反舰导弹的类型数量g、各类型反舰导弹的飞行速度集合VA={va1,va2,...,va
g
}、各类型反舰导弹的威胁度集合T={t1,t2,...,t
g
};其中集合D中1和n分别为第1个和第n个来袭的进攻方反舰导弹,集合D中va1为第一个来袭的进攻方反舰导弹的飞行速度,集合D中t1为第一个来袭的进攻方反舰导弹的威胁度;在舰船执行导弹目标分配任务过程中,以最大化成功拦截来袭反舰导弹数量和最大化资源保存为优化目标,建立舰船导弹目标分配数学模型;所述舰船导弹目标分配数学模型为:其中:m
j
为第j型SAM的总数量,pr
j
为第j型SAM的价值系数,r
i
为成功拦截的ASM相对应的奖励,数值上为10倍的ASM的威胁度T,dp
ij
为布尔变量,若ASM被拦截则为1,反之为0,a和b是对应两个子目标的加权系数,x
ij
为决策变量,表示舰船拦截第i颗ASM所发射的第j型SAM的数量;舰船的防空能力约束模型:其中,m
j
为舰船剩余的第j型SAM数量,α
j
为舰船在该波次拦截中第j型SAM发射井的最大发射能力。为舰船拦截第i颗ASM时舰船与ASM之间的距离,D
j
为第j型SAM的拦截距离;来袭反舰导弹的最大被执行数量约束模型为:
其中,ω为该次拦截中,舰船对第i个来袭ASM发射的SAM最大拦截数;ASM被拦截条件约束模型:其中,p
i
为第i个ASM被拦截的概率,γ
k
为第j型SAM命中概率,D
min
为舰船的最小反应拦截距离。3.根据权利要求1所述的方法,其特征在于,根据舰船导弹目标分配数学模型建立由四元组构成的马尔可夫决策过程,包括:根据舰船导弹目标分配数学模型,建立由四元组构成的马尔可夫决策过程为H=(S,A,P,R),其中,S为状态空间、A为动作空间、P为状态转移函数、R为奖励函数,马尔可夫决策过程具体如下:状态空间S:融合注意力机制的深度强化学习模型的输入状态信息{M,O,V,T,N}是当前舰船态势感知中所知的战场信息,其中M和N分别为攻防双方的导弹数量信息,O为舰船和来袭目标的位置矩阵,V是攻防双方导弹的飞行速度,T为来袭导弹的威胁度;动作空间A:根据所构建的问题模型,设计动作空间维度d
A
=ωk+1,可执行动作a∈{0,1,2...,ωk},其中0表示不发射SAM,1到ω表示发射第一种SAM的枚数,以此类推;奖励函数R:每成功拦截一个来袭反舰导弹目标获得相应目标威胁等级的即时奖励r,同时每消耗一枚导弹也会得到相应的资源消耗惩罚c,由此得到拦截n个来袭反舰导弹目标的累计奖励函数:状态转移函数P:防御方通过当前策略选择需要执行的动作a,即s
t+1
=π
θ
(a
t
|s
t
),其中t某一时间步,s
t
和a
t
表示当前时间步下防御方所处的状态和动作,π
θ
表示防御方体在选择动作时所使用的策略,θ为策略网络中的可训练参数,随着不断学习,策略网络的参数将随之优化。4.根据权利要求1所述的方法,其特征在于,构建基于Transformer模型的融合注意力机制的深度强化学习模型,步骤中基于Transformer模型的融合注意力机制的深度强化学习模型包括编码器与解码器。5.根据权利要求4所述的方法,其特征在于,在所述编码器中,将当前状态空间信息进行特征处理后作为融合注意力机制的深度强化学习模型的初始网络输入信息,通过线性层...

【专利技术属性】
技术研发人员:刘芝桥
申请(专利权)人:湖南遁一科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1