基于DQN算法的多目标多弹种多平台的智能火力分配方法组成比例

技术编号:32924331 阅读:18 留言:0更新日期:2022-04-07 12:15
本发明专利技术涉及一种基于DQN算法的多目标多弹种多平台的智能火力分配方法,属于智能火力分配技术领域。本发明专利技术将DQN算法引入到火力分配中,实现了以最大效费比为目标的分配。实现了以最大效费比为目标的分配。实现了以最大效费比为目标的分配。

【技术实现步骤摘要】
基于DQN算法的多目标多弹种多平台的智能火力分配方法


[0001]本专利技术属于智能火力分配
,具体涉及一种基于DQN算法的多目标多弹种多平台的智能火力分配方法。

技术介绍

[0002]目标

武器弹药匹配问题是武器弹药的最优配置的问题,在现代作战的背景下,作战任务具有多样化的特点,决定作战不仅以消灭敌人为目的,更要在保存自己、减少消耗、发挥效能等方面取得一个平衡,需要多领域的综合权衡比较。
[0003]多目标多弹种多平台的火力分配问题本质上是一个非线性多目标优化决策问题,火力分配的空间随着火力单元和目标总数的增加呈现指数级增长,对火力分配方法进行改进,使实际的火力分配是最优的或接近最优的,这是不需要增加物质消耗、不要求更高的技术保障,就能提高射击效果的有效途径,因而有着重要的实际意义。
[0004]火力分配算法方面,目前基本还是以遗传算法、蚁群算法等智能算法为主,求解的速度和准确度都还有不足,同时也容易陷入局部收敛。由于每种智能算法的缺点比较明显,现阶段学者们考虑利用不同智能算法的特点进行组合,进行算法之间的互补,但组合算法只能在一定程度上对现有算法的某些方面进行改善。
[0005]强化学习是否可以应用于火力分配的问题,并将两种强化学习算法应用于武器分配问题的求解,分别是具有随机开始的蒙特卡洛控制算法(MCES)和基于off

policy的时差学习控制算法,即Q

learning算法,又将两者的结果进行比较。仿真结果证明将强化学习的方法应用于火力分配问题是可行的,但是在现有的解决方法中只涉及一两个己方火力单位和一个敌方威胁,规模太小,同时也属于静态火力分配,所以需要进一步改进。
[0006]利用强化学习的方法进行火力分配的研究优势是明显的。强化学习不需要提前人为设计模型,因此可以省去建模环节,从而避免动态火力分配模型建立困难的问题;利用强化学习中智能体可以与环境交互的特点,系统可以随时对战场态势作出反应,容易满足实时性;同时强化学习中的探索和开发策略可以有效解决传统智能算法容易陷入局部最优的缺陷。此外,强化学习是目前的热门研究领域,算法不断得到改进,因此研究基于强化学习的火力分配具有一定的前景。

技术实现思路

[0007](一)要解决的技术问题
[0008]本专利技术要解决的技术问题是:如何设计一种可靠性好、便于部队应用的多目标多弹种多平台的智能火力分配方法。
[0009](二)技术方案
[0010]为了解决上述技术问题,本专利技术提供了一种基于DQN算法的多目标多弹种多平台的智能火力分配方法,包括以下步骤:
[0011]步骤S1:设置火力分配模型的相关资源及属性,建立多目标多弹种多平台的火力
分配模型;
[0012]步骤S2:设置状态空间、动作空间以及奖励函数;
[0013]步骤S3:构建DQN网络,初始化DQN网络的超参数,训练DQN网络;
[0014]步骤S4:通过智能体与环境的交互,获得最大收益。
[0015]优选地,步骤S1具体包括:
[0016]S11:设战场中有T={t|t=1,2,

,T}个不同的目标,资源库中有D={d|d=1,2,

,D}种弹药,每种弹药的数量为N
D
∈[1,D],有P={p|p=1,2,

,P}种发射平台,每种发射平台的数量为N
P
∈[1,P];
[0017]S12:弹种d能否打击目标t用t
d
表示,t
d
=1表示能打,t
d
=0表示不能打,设每种弹药的价值为V
d
={v
d
|d=1,2,

,D},每个目标的价值为V
t
={v
t
|t=1,2,

,T};
[0018]S13:发射平台p能否发射弹种d用d
p
表示,d
p
=1表示能发射,d
p
=0表示不能发射,发射平台p与目标t的距离表示为L
pt
,射击精度为J
pt

[0019]S14:对于每个目标的分配方案表示为F
t
={d,p},即使用第p种发射平台发射第d种弹药打击第t个目标;
[0020]S15:以目标为基础,为其分配弹药和发射平台,进行资源分配,直至所有目标均满足要求,得到火力分配模型。
[0021]优选地,所述步骤S2具体包括:
[0022]S21:定义状态空间为s
t
={t
d
,v
d
,v
t
,d
p
,L
pt
,J
pt
},其中,t
d
表示当前弹药能否打击目标,v
d
表示当前弹药的价值,v
t
表示当前目标的价值,d
p
表示当前发射平台能否发射当前弹药,L
pt
表示当前发射平台与当前目标的距离,J
pt
表示当前发射平台发射当前弹药打击当前目标的精度;
[0023]定义动作空间为a={

1,1},其中,1表示选用当前弹药和发射平台,

1表示不选用当前弹药和发射平台;
[0024]S22:定义奖励函数为:
[0025][0026]基于火力分配模型进行如下判断:当前弹药不能打击当前目标或者当前发射平台不能发射当前弹药时,给予负奖励,反之,根据效费比、打击精度和距离,给予正奖励。
[0027]优选地,步骤S2中,将火力分配的目标函数映射为智能体在环境中交互学习的奖励。
[0028]优选地,所述步骤S3具体包括:
[0029]S31:设置目标、弹药、发射平台的相关参数,构建DQN网络,进行网络权重参数θ的初始化,并初始化DQN的经验池相关超参数;
[0030]S32:获取火力分配模型的状态S
t
,作为DQN网络的输入;
[0031]S33:根据当前状态,选择动作a
t
=argmax
a
Q(s
t
,a;θ);
[0032]S34:火力资源分配模型执行动作a
t
,计算得到回报r和状态S
t+1

[0033]S35:将{S
t
,a
t
,r,S
t+1
}存储到经验池;
[0034]S36:从经验池中随机选取一批样板<S
t
,a
t
,r,S
t+1
>;
[0035]S37:计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于DQN算法的多目标多弹种多平台的智能火力分配方法,其特征在于,包括以下步骤:步骤S1:设置火力分配模型的相关资源及属性,建立多目标多弹种多平台的火力分配模型;步骤S2:设置状态空间、动作空间以及奖励函数;步骤S3:构建DQN网络,初始化DQN网络的超参数,训练DQN网络;步骤S4:通过智能体与环境的交互,获得最大收益。2.如权利要求1所述的方法,其特征在于,步骤S1具体包括:S11:设战场中有T={t|t=1,2,...,T}个不同的目标,资源库中有D={d|d=1,2,...,D}种弹药,每种弹药的数量为N
D
∈[1,D],有P={p|p=1,2,...,P}种发射平台,每种发射平台的数量为N
P
∈[1,P];S12:弹种d能否打击目标t用t
d
表示,t
d
=1表示能打,t
d
=0表示不能打,设每种弹药的价值为V
d
={v
d
|d=1,2,...,D},每个目标的价值为V
t
={v
t
|t=1,2,...,T};S13:发射平台p能否发射弹种d用d
p
表示,d
p
=1表示能发射,dp=0表示不能发射,发射平台p与目标t的距离表示为L
pt
,射击精度为J
pt
;S14:对于每个目标的分配方案表示为F
t
={d,p},即使用第p种发射平台发射第d种弹药打击第t个目标;S15:以目标为基础,为其分配弹药和发射平台,进行资源分配,直至所有目标均满足要求,得到火力分配模型。3.如权利要求2所述的方法,其特征在于,所述步骤S2具体包括:S21:定义状态空间为S
t
={t
d
,v
d
,v
t
,d
p
,L
pt
,J
pt
},其中,t
d
表示当前弹药能否打击目标,v
d
表示当前弹药的价值,v
t
表示当前目标的价值,d
p
表示当前发射平台能否发射当前弹药,L
pt
表示当前发射...

【专利技术属性】
技术研发人员:杨欢欢王贺沈志立刘义先张宇郭加鹏彭如冰廖子轩
申请(专利权)人:航天科工智能运筹与信息安全研究院武汉有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1