【技术实现步骤摘要】
基于深度强化学习的舰船导弹目标分配方法、装置和设备
[0001]本申请涉及武器目标分配
,特别是涉及一种基于深度强化学习的舰船导弹目标分配方法、装置和设备。
技术介绍
[0002]目前,海上舰船在作战中面临着严重的空中威胁,随着海上战场的作战样式和武器装备越来越复杂,无论是各式中程弹道导弹以及低空掠海的反舰导弹(Anti
‑
ship Missile,ASM)都能给海上舰船及其编队带来巨大的打击,使得海上舰船防空反导作战面临极大挑战。舰载导弹作为舰船打击或拦截进攻性目标的主要武器资源,造价成本高昂且数量有限,因而高效合理地协调各类导弹资源即武器目标分配(Weapon
‑
target Allocation,WTA)在舰船防空反导作战中非常重要,同时也是指挥与控制研究中的一个关键问题。
[0003]海上舰船防空的导弹目标分配问题(Missile
‑
target Allocation,MTA)是一个典型的WTA问题,国内外研究主要侧重于防御方,一般是在态势感知的基础上,优先以最小化要地损失和最小化资源消耗为优化目标,考虑资源、空间关系等约束建立数学模型,实现舰船导弹资源的高效利用。WTA问题有两个不同的类别:静态武器目标分配(SWTA)和动态武器目标分配(DWTA)。SWTA只考虑静态和瞬时决策,不考虑时间维度;而DWTA则考虑了导弹和目标的时间窗以及做出决策后到目标是否击中的后续决策的动态过程,一般采用“射
‑
看
‑
射” ...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的舰船导弹目标分配方法,其特征在于,所述方法包括:建立舰船导弹目标分配数学模型;根据舰船导弹目标分配数学模型建立由四元组构成的马尔可夫决策过程;构建基于Transformer模型的融合注意力机制的深度强化学习模型;所述融合注意力机制的深度强化学习模型用于根据当前舰船态势感知中所知的战场信息实现舰船导弹目标分配决策;采用带基线的策略梯度法训练所述融合注意力机制的深度强化学习模型;根据马尔可夫决策过程中当前时间步下的四元组信息,采用训练后的融合注意力机制的深度强化学习模型对舰船导弹目标进行分配。2.根据权利要求1所述的方法,其特征在于,建立舰船导弹目标分配数学模型,包括:获取当前舰船携带的防空导弹类型数量k、各类型防空导弹针对来袭目标的拦截距离集合D={D1,D2,...,D
k
}、各类型防空导弹成功命中来袭目标的概率集合DP={dp1,dp2,...,dp
k
}、各类型防空导弹的飞行速度集合VS={vs1,vs2,...,vs
k
};其中,k为大于1的整数,集合D中的D
i
为第i类防空导弹针对来袭目标的拦截距离,集合DP中的dp
i
为第i类防空导弹成功命中来袭目标的概率,集合VS中的vs
i
为第i类防空导弹的飞行速度,i=1,2,
…
,k;获取舰船要防御从空中来袭并进入其拦截探测范围的进攻方反舰导弹集合N={1,2,...,n}、来袭的反舰导弹的类型数量g、各类型反舰导弹的飞行速度集合VA={va1,va2,...,va
g
}、各类型反舰导弹的威胁度集合T={t1,t2,...,t
g
};其中集合D中1和n分别为第1个和第n个来袭的进攻方反舰导弹,集合D中va1为第一个来袭的进攻方反舰导弹的飞行速度,集合D中t1为第一个来袭的进攻方反舰导弹的威胁度;在舰船执行导弹目标分配任务过程中,以最大化成功拦截来袭反舰导弹数量和最大化资源保存为优化目标,建立舰船导弹目标分配数学模型;所述舰船导弹目标分配数学模型为:其中:m
j
为第j型SAM的总数量,pr
j
为第j型SAM的价值系数,r
i
为成功拦截的ASM相对应的奖励,数值上为10倍的ASM的威胁度T,dp
ij
为布尔变量,若ASM被拦截则为1,反之为0,a和b是对应两个子目标的加权系数,x
ij
为决策变量,表示舰船拦截第i颗ASM所发射的第j型SAM的数量;舰船的防空能力约束模型:其中,m
j
为舰船剩余的第j型SAM数量,α
j
为舰船在该波次拦截中第j型SAM发射井的最大发射能力。为舰船拦截第i颗ASM时舰船与ASM之间的距离,D
j
为第j型SAM的拦截距离;来袭反舰导弹的最大被执行数量约束模型为:
其中,ω为该次拦截中,舰船对第i个来袭ASM发射的SAM最大拦截数;ASM被拦截条件约束模型:其中,p
i
为第i个ASM被拦截的概率,γ
k
为第j型SAM命中概率,D
min
为舰船的最小反应拦截距离。3.根据权利要求1所述的方法,其特征在于,根据舰船导弹目标分配数学模型建立由四元组构成的马尔可夫决策过程,包括:根据舰船导弹目标分配数学模型,建立由四元组构成的马尔可夫决策过程为H=(S,A,P,R),其中,S为状态空间、A为动作空间、P为状态转移函数、R为奖励函数,马尔可夫决策过程具体如下:状态空间S:融合注意力机制的深度强化学习模型的输入状态信息{M,O,V,T,N}是当前舰船态势感知中所知的战场信息,其中M和N分别为攻防双方的导弹数量信息,O为舰船和来袭目标的位置矩阵,V是攻防双方导弹的飞行速度,T为来袭导弹的威胁度;动作空间A:根据所构建的问题模型,设计动作空间维度d
A
=ωk+1,可执行动作a∈{0,1,2...,ωk},其中0表示不发射SAM,1到ω表示发射第一种SAM的枚数,以此类推;奖励函数R:每成功拦截一个来袭反舰导弹目标获得相应目标威胁等级的即时奖励r,同时每消耗一枚导弹也会得到相应的资源消耗惩罚c,由此得到拦截n个来袭反舰导弹目标的累计奖励函数:状态转移函数P:防御方通过当前策略选择需要执行的动作a,即s
t+1
=π
θ
(a
t
|s
t
),其中t某一时间步,s
t
和a
t
表示当前时间步下防御方所处的状态和动作,π
θ
表示防御方体在选择动作时所使用的策略,θ为策略网络中的可训练参数,随着不断学习,策略网络的参数将随之优化。4.根据权利要求1所述的方法,其特征在于,构建基于Transformer模型的融合注意力机制的深度强化学习模型,步骤中基于Transformer模型的融合注意力机制的深度强化学习模型包括编码器与解码器。5.根据权利要求4所述的方法,其特征在于,在所述编码器中,将当前状态空间信息进行特征处理后作为融合注意力机制的深度强化学习模型的初始网络输入信息,通过线性层...
【专利技术属性】
技术研发人员:刘芝桥,
申请(专利权)人:湖南遁一科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。