一种基于启发式强化学习的反导防御系统火力分配方法技术方案

技术编号:34853375 阅读:48 留言:0更新日期:2022-09-08 07:54
本发明专利技术公开了一种基于启发式强化学习的反导防御系统火力分配方法。本发明专利技术首先将WTA问题转化为一个多步决策问题,在深度Q网络框架下建立火力分配方法;构建火力单元状态集、目标库和经验池,引入了公平采样策略,确保等概率学习各目标分配经验;引入了基于SA

【技术实现步骤摘要】
一种基于启发式强化学习的反导防御系统火力分配方法


[0001]本专利技术属于武器工业与军事
,具体涉及一种基于启发式强化学习的反导防御系统火力分配方法。

技术介绍

[0002]火力分配问题通常又称作武器

目标分配(Weapon

Target Assignment,WTA)问题,是反导指挥系统的核心工作任务之一,该问题具体为计算最优的火力分配方案,使反导武器系统对多个空中来袭目标分配给它们最合适的火力单元,以达到最优整体毁伤效果,最大化作战效能和防御效能。WTA问题是整数型非线性组合优化问题,属于NP

完全(NP

Complete)问题。目前,已有的WTA优化方法包括动态规划法、启发式算法和专家经验法等。然而,上述方法在应对较大规模的WTA问题时计算效率低、实时性差且求解方案的最优性难以保证。例如,动态规划法存在计算空间过于庞大的问题,启发式算法难以在有限时间内保证解的最优性。而基于强化学习的决策方法可避免以上问题,近年来广泛应用在军事决策场景中。强化学习作为机器学习的一个分支,通过与环境的交互进行学习。强化学习智能体在与环境的交互中获得奖励经验,并进行以最大化奖励为目标的学习。强化学习算法中,深度Q网络(DQN)是目前一种主流且应用广泛的深度强化学习算法,由Google的DeepMind团队提出,具有较好的泛化性能。深度强化学习的基本思想是利用一个权重为θ的神经网络(Q网络)来近似状态

行为值函数(Q函数)。该方法近年来在NP

完全问题以及NP

困难问题中得到了广泛的应用。
[0003]而普通的DQN模型在训练时,尤其是应对大规模NP问题时,存在探索空间过大,模型难以收敛的问题。而启发式算法如粒子群算法在寻优时间足够的情况下能够找到较好的解。因此,将启发式算法引入DQN的训练过程,通过启发式算法进行火力分配决策,从而得到较优的火力分配经验,启发DQN的训练,提高DQN模型的寻优效率和最终的决策能力。

技术实现思路

[0004]本专利技术针对现有技术的不足,提供一种基于启发式强化学习的反导防御系统火力分配方法。
[0005]本专利技术的具体步骤如下:
[0006]步骤1、火力分配模型构建
[0007]构建基于最大毁伤概率准则下的火力分配(Weapon

Target Assignment,WTA)模型。
[0008]步骤2、DQN框架下的WTA多段决策建模
[0009]将步骤1中的火力分配过程构建为强化学习框架下的多步决策过程,每一次单步决策分配一个火力单元,并产生一个强化学习四元组<s
i
,a
i
,r
i
,s
i+1
>,其中s
i
为当前火力资源的状态描述; a
i
为在状态s
i
下所采取的动作,代表了所分配目标的信息;r
i
为在状态s
i
下执行单步决策后收到的奖励;s
i+1
为下一决策步火力资源的状态描述,将每一步决策产生
的四元组作为经验存入经验库中,提供后续DQN模型训练;
[0010]步骤3、融合启发式算法的单步决策
[0011]引入SA

PSO算法对DQN训练的ε

greedy机制进行改进,具体为:训练开始前设置一个全局的变量ε,且初始值为0.0,随着训练的进行,ε逐渐提高,终值为0.95;在每次单步决策前,生成一个随机数z,若z大于ε则使用SA

PSO算法火力分配优化算法计算并选取基于当前火力单元状态和目标分配情况下能获得的最高整体毁伤及对应的火力分配对象,并作为决策结果执行;反之,则采用DQN火力分配模型进行单步决策;在训练初期,主要由SA

PSO火力分配优化方法进行决策,积累了大量优质的分配经验;而随着训练的进行,由DQN进行单步决策的占比逐渐提高,保证了DQN的训练效率。
[0012]步骤4、DQN记忆库存储与更新
[0013]每完成一次单步决策,产生一组<s
i
,a
i
,r
il
,s
i+1
>并存入临时经验池,其中r
il
为单步决策带来的毁伤概率增益;重复步骤3直至完成一轮火力分配,根据火力分配模型计算整体毁伤概率并对临时经验库中的每个奖励值r
il
进行修正、更新。将更新过的经验存入经验库,若此时经验库未满则直接存入;反之则将较旧的经验替换,最后清空临时经验池。若此时训练轮数未达规定,则重置火力分配场景,设置拦截弹和目标群的相关参数开始一轮新的火力分配。
[0014]步骤5、“均匀采样”与网络训练
[0015]一轮火力分配结束后,若经验库已存满,则利用“均匀采样”策略从经验库中抽取 batch_size条经验对DQN模型进行训练。重复步骤3到步骤4,逐步训练、优化DQN火力分配决策模型;若经验库未满则直接转至步骤3。
[0016]步骤6、智能火力分配模型测试
[0017]若训练轮数达到规定,DQN模型训练完成,保存DQN模型。根据实际火力分配场景,设置火力资源规模、来袭目标规模、火力单元以及目标的类型。从第一个火力单元开始分配,根据火力单元状态构建状态s,并与各个目标构成状态

动作集,输入DQN得到对应的Q值,选择Q 值最大的动作,重复该步骤直到火力分配完成,从而生成火力分配方案。
[0018]作为优选,所述的基于最大毁伤概率准则下的火力分配模型,具体为:假设敌方来袭目标弹包括近、中、远程弹道导弹以及高超声速飞行器四种类型;我方拦截弹包括低、中、高层拦截弹三种类型;目标数量为n,我方拦截弹数量为m,则火力分配模型描述为
[0019][0020]式中,v
j
为第j个敌方目标的威胁度,p
ij
为第i个拦截弹对j个敌方目标的毁伤概率,不等式约束则分别表示每个拦截弹最多只能打击1个目标,而每个目标可以被多个拦截弹打击。
[0021]作为优选,步骤2中,火力分配场景下强化学习的状态转移四元组定义如下:1)当前火力资源的状态s
i
表征第i个拦截弹分配时的当前状态,由于拦截弹的类型与拦截弹的毁伤能力直接相关,因此,状态向量包含拦截弹的类型信息,另外,也包含了火力资源的剩余情况;综上,定义第i个拦截弹分配时的当前状态为
[0022][0023]式中,m
cost
为已分配的拦截弹数量,m为拦截弹数量;m
icost
为第i类拦截弹已用数量,i=1,2,

,l; m
i
_type为该拦截弹的类型,以独热编码形式记录。当执行完第i个拦截本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于启发式强化学习的反导防御系统火力分配方法,其特征在于,包括以下步骤:步骤1、火力分配模型构建构建基于最大毁伤概率准则下的火力分配模型;步骤2、DQN框架下的WTA多段决策建模将步骤1中的火力分配过程构建为强化学习框架下的多步决策过程,每一次单步决策分配一个火力单元,并产生一个强化学习四元组<s
i
,a
i
,r
i
,s
i+1
>,其中s
i
为当前火力资源的状态描述;a
i
为在状态s
i
下所采取的动作,代表了所分配目标的信息;r
i
为在状态s
i
下执行单步决策后收到的奖励;s
i+1
为下一决策步火力资源的状态描述,将每一步决策产生的四元组作为经验存入经验库中,提供后续DQN模型训练;步骤3、融合启发式算法的单步决策引入SA

PSO算法对DQN训练的ε

greedy机制进行改进,具体为:训练开始前设置一个全局的变量ε,且初始值为0.0,随着训练的进行,ε逐渐提高,终值为0.95;在每次单步决策前,生成一个随机数z,若z大于ε则使用SA

PSO算法火力分配优化算法计算并选取基于当前火力单元状态和目标分配情况下能获得的最高整体毁伤及对应的火力分配对象,并作为决策结果执行;反之,则采用DQN火力分配模型进行单步决策;步骤4、DQN记忆库存储与更新每完成一次单步决策,产生一组<s
i
,a
i
,r
il
,s
i+1
>并存入临时经验池,其中r
il
为单步决策带来的毁伤概率增益;重复步骤3直至完成一轮火力分配,根据火力分配模型计算整体毁伤概率并对临时经验库中的每个奖励值r
il
进行修正、更新;将更新过的经验存入经验库,若此时经验库未满则直接存入;反之则将较旧的经验替换,最后清空临时经验池;若此时训练轮数未达规定,则重置火力分配场景,设置拦截弹和目标群的相关参数开始一轮新的火力分配;步骤5、“均匀采样”与网络训练一轮火力分配结束后,若经验库已存满,则利用“均匀采样”策略从经验库中抽取batch_size条经验对DQN模型进行训练;重复步骤3到步骤4,逐步训练、优化DQN火力分配决策模型;若经验库未满则直接转至步骤3;步骤6、智能火力分配模型测试若训练轮数达到规定,DQN模型训练完成,保存DQN模型;根据实际火力分配场景,设置火力资源规模、来袭目标规模、火力单元以及目标的类型;从第一个火力单元开始分配,根据火力单元状态构建状态s,并与各个目标构成状态

动作集,输入DQN得到对应的Q值,选择Q值最大的动作,重复该步骤直到火力分配完成,从而生成火力分配方案。2.根据权利要求1所述的一种基于启发式强化学习的反导防御系统火力分配方法,其特征在于:所述的基于最大毁伤概率准则下的火力分配模型,具体为:假设敌方来袭目标弹包括近、中、远程弹道导弹以及高超声速飞行器四种类型;我方拦截弹包括低、中、高层拦截弹三种类型;目标数量为n,我方拦截弹数量为m,则火力分配模型描述为
式中,v
j
为第j个敌方目标的威胁度,p
ij
为第i个拦截弹对j个敌方目标的毁伤概率,不等式约束则分别表示每个拦截弹最多只能打击1个目标,而每个目标可以被多个拦截弹打击。3.根据权利要求1所述的一种基于启发式强化学习的反导防御系统火力分配方法,其特征在于,步骤2中,火力分配场景下强化学习的状态转移四元组定义如下:1)当前火力资源的状态s
i
表征第i个拦截弹分配时的当前状态,由于拦截弹的类型与拦截弹的毁伤能力直接相关,因此,状态向量包含拦截弹的类型信息,另外,也包含了火力资源的剩余情况;综上,定义第i个拦截弹分配时的当前状态为式中,m
cost
为已分配的拦截弹数量,m为拦截弹数量;m
icost
为第i类拦截弹已用数量,i=1,2,

,l;m
i
_type为该拦截弹的类型,以独热编码形式记录;当执行完第i个拦截弹分配决策后,更新火力资源信息,得到第i+1步决策时的状态向量s
i+1
;当i=m时,不存在s
i+1
;2)在状态s
i
下所采取的动作a
i
表征该步决策所选择目标的描述信息,进行火力分配决策时,需要综合考虑目标的威胁程度和已产生的火力分配情况;目标威胁程度越高,火力打击的优先程度也越高,而当目标已有多个火力单元打击时,其毁伤概率已有较好的保障,打击的优先程度也随之下降;另外,目标的类型与目标的机动特性直接相关,决定了不同类型的拦截弹对其毁伤概率的相对大小;因此,a
i
需包括目标的威胁度、已被分配火力单元情况以及目标的类型信息;因此,假设第i步决策时,将拦截弹分配给第j个目标,定义a
i
动作向量的一个决策动作a
ij
为式中,m
iallocate
为第i类拦截弹中已分配到该目标上的数量;v
j
为目标的威胁度;n
j
_type为目标的类型,以独热编码编码形式存在;3)奖励r
i
表示在状态s
i
下执行决策后得到的综合奖励值。4.根据权利要求1所述的一种基于启发式强化学习的反导防御系统火力分配方法,其特征在于,步骤3中应用SA

PSO算法改进ε

greedy机制进行单步决策,其好处在于利用SA

PSO火力分配优化算法增加了经验库的经验质量,提高了DQN模型的寻优效率;具体步骤为:设定一个变量ε,每次训练前初始化为0.0,每完成一轮火力分配后ε+0.01,最终收敛于0.95;每次单步决策前,利用0

1均匀分布随机函数产生一个随机数z,若z>ε则利用SA
‑<...

【专利技术属性】
技术研发人员:方峰谢俊伟彭冬亮王昌平李文韬
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1