当前位置: 首页 > 专利查询>航天科工智能运筹与信息安全研究院武汉有限公司专利>正文

基于DQN算法的多目标多弹种多平台的智能火力分配方法组成比例

技术编号：32924331 阅读：18 留言：0更新日期：2022-04-07 12:15

本发明专利技术涉及一种基于DQN算法的多目标多弹种多平台的智能火力分配方法，属于智能火力分配技术领域。本发明专利技术将DQN算法引入到火力分配中，实现了以最大效费比为目标的分配。实现了以最大效费比为目标的分配。实现了以最大效费比为目标的分配。

全部详细技术资料下载

【技术实现步骤摘要】
基于DQN算法的多目标多弹种多平台的智能火力分配方法

[0001]本专利技术属于智能火力分配
，具体涉及一种基于DQN算法的多目标多弹种多平台的智能火力分配方法。

技术介绍

[0002]目标
‑
武器弹药匹配问题是武器弹药的最优配置的问题，在现代作战的背景下，作战任务具有多样化的特点，决定作战不仅以消灭敌人为目的，更要在保存自己、减少消耗、发挥效能等方面取得一个平衡，需要多领域的综合权衡比较。
[0003]多目标多弹种多平台的火力分配问题本质上是一个非线性多目标优化决策问题，火力分配的空间随着火力单元和目标总数的增加呈现指数级增长，对火力分配方法进行改进，使实际的火力分配是最优的或接近最优的，这是不需要增加物质消耗、不要求更高的技术保障，就能提高射击效果的有效途径，因而有着重要的实际意义。
[0004]火力分配算法方面，目前基本还是以遗传算法、蚁群算法等智能算法为主，求解的速度和准确度都还有不足，同时也容易陷入局部收敛。由于每种智能算法的缺点比较明显，现阶段学者们考虑利用不同智能算法的特点进行组合，进行算法之间的互补，但组合算法只能在一定程度上对现有算法的某些方面进行改善。
[0005]强化学习是否可以应用于火力分配的问题，并将两种强化学习算法应用于武器分配问题的求解，分别是具有随机开始的蒙特卡洛控制算法(MCES)和基于off
‑
policy的时差学习控制算法，即Q
‑
learning算法，又将两者的结果进行比较。仿真结果证明将强化学...

【技术保护点】

【技术特征摘要】
1.一种基于DQN算法的多目标多弹种多平台的智能火力分配方法，其特征在于，包括以下步骤：步骤S1：设置火力分配模型的相关资源及属性，建立多目标多弹种多平台的火力分配模型；步骤S2：设置状态空间、动作空间以及奖励函数；步骤S3：构建DQN网络，初始化DQN网络的超参数，训练DQN网络；步骤S4：通过智能体与环境的交互，获得最大收益。2.如权利要求1所述的方法，其特征在于，步骤S1具体包括：S11：设战场中有T＝{t|t＝1，2，...，T}个不同的目标，资源库中有D＝{d|d＝1，2，...，D}种弹药，每种弹药的数量为N
D
∈[1，D]，有P＝{p|p＝1，2，...，P}种发射平台，每种发射平台的数量为N
P
∈[1，P]；S12：弹种d能否打击目标t用t
d
表示，t
d
＝1表示能打，t
d
＝0表示不能打，设每种弹药的价值为V
d
＝{v
d
|d＝1，2，...，D}，每个目标的价值为V
t
＝{v
t
|t＝1，2，...，T}；S13：发射平台p能否发射弹种d用d
p
表示，d
p
＝1表示能发射，dp＝0表示不能发射，发射平台p与目标t的距离表示为L
pt
，射击精度为J
pt
；S14：对于每个目标的分配方案表示为F
t
＝{d，p}，即使用第p种发射平台发射第d种弹药打击第t个目标；S15：以目标为基础，为其分配弹药和发射平台，进行资源分配，直至所有目标均满足要求，得到火力分配模型。3.如权利要求2所述的方法，其特征在于，所述步骤S2具体包括：S21：定义状态空间为S
t
＝{t
d
，v
d
，v
t
，d
p
，L
pt
，J
pt
}，其中，t
d
表示当前弹药能否打击目标，v
d
表示当前弹药的价值，v
t
表示当前目标的价值，d
p
表示当前发射平台能否发射当前弹药，L
pt
表示当前发射...

【专利技术属性】
技术研发人员：杨欢欢，王贺，沈志立，刘义先，张宇，郭加鹏，彭如冰，廖子轩，
申请(专利权)人：航天科工智能运筹与信息安全研究院武汉有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人