一种基于强化学习的能力匹配组合优化方法技术

技术编号：39134377 阅读：7 留言：0更新日期：2023-10-23 14:52

本发明专利技术公开一种基于强化学习的能力匹配组合优化方法，其包括：利用任务能力需求向量、各装备的能力指标向量以及装备调度与损耗成本构建能力匹配组合优化模型；将任务能力需求向量、装备能力向量作为输入序列的一个元素输入到指针网络编码器，输入序列通过编码器生成编码向量；将编码向量作为译码器输入，译码器确定输出序列，装备组合的成本阈值作为译码停止条件；计算装备组合的综合能力并将其作为组合优化方案的收益，利用Actor

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的能力匹配组合优化方法

[0001]本专利技术涉及多装备协同组合优化
，特别是一种基于强化学习的任务需求
‑
装备能力匹配组合优化方法。

技术介绍

[0002]独立装备所具备的能力相对单一，要满足任务能力需求必须将多装备平台有机地组合并形成完整的体系。不同的任务对装备的能力需求存在差异，如何组合运用多装备在有效完成任务的同时降低装备运用成本是近年来国内外研究热点。面向任务需求的装备组合运用研究重点包括：任务的能力需求分析、单装备能力量化、多装备组合能力计算以及多装备协同组合优化。本专利技术所涉及的方法建立在任务能力需求分析、装备能力有效量化的基础上，面向任务能力需求对多装备进行匹配组合优化。
[0003]现有的多装备组合优化相关技术资料多集中在组合优化模型的构建，且采用启发式的方法求解组合优化方案。南京陆军指挥学院王本胜等人分析了“使命
‑
任务
‑
实体能力”之间的映射关系，但未给出相应的匹配组合优化方法(参见非专利文献1)。国防科技大学段采宇等人分析了装备体系需求指标结构，建立了基于任务需求、能力需求、和能力缝隙的装备体系数学模型，未给出有效的匹配组合优化方法(参见非专利文献2)。随着体系向多域、分布式方向发展，对其中装备的海量化、多元化需求提高，传统方法解决装备组合优化问题其复杂度呈指数型增长。因此，设计高效的装备组合优化算法是未体系亟待解决的问题。
[0004]近年来，采用深度学习、强化学习解决组合优化问题成为学术界研究的热...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的能力匹配组合优化方法，其特征在于，包括：步骤1：利用任务的能力需求向量、各装备的能力指标向量以及装备调度与损耗成本构建能力匹配组合优化模型；步骤2：将任务能力需求向量、各装备能力指标向量作为输入序列的一个元素输入到指针网络编码器，将输入序列生成为编码向量；步骤3：将指针网络编码器输出的编码向量作为指针网络译码器的输入，译码器采用注意力机制确定输出序列，装备组合的综合成本阈值作为译码停止条件；步骤4：采用Actor
‑
Critic强化学习算法求解最优装备组合方案，所述指针网络作为Actor网络，输出装备组合方案，根据能力匹配组合优化模型计算装备组合的综合能力并将其作为强化学习算法的收益，采用梯度上升法优化指针网络参数，滑动平均收益与当前策略下收益的均方误差作为Critic网络的损失函数，并采用梯度下降法更新Critic网络的参数；步骤5：对Actor网络和Critic网络进行训练，获得不同能力需求和装备指标向量下的最优装备组合方案求解器；步骤6：推理阶段，从实际场景中获取任务能力需求向量、各装备的能力指标向量，输入到能力匹配优化模型的Actor指针网络中，依次输出组合方案的各装备编号，直到装备组合的综合成本达到综合成本阈值，推理结束，输出装备组合方案。2.根据权利要求1所述的方法，其特征在于，所述步骤1包括：步骤11：基于任务的能力需求指标向量，将各装备的能力指标向量进行一致性转换，得到转换后的各装备的能力指标向量；步骤12：计算多装备组合能力；步骤13：计算多装备相对组合能力；步骤14：计算装备组合后的综合能力；步骤15：根据装备的调度成本和损耗成本，得到装备组合后的综合成本；步骤16：以装备组合后的综合能力的最大化为优化目标，以装备组合后的综合成本小于或等于综合成本阈值W为约束条件建立能力匹配组合优化模型。3.根据权利要求2所述的方法，其特征在于，所述步骤11包括：P
m
按照如下方法转换为与Q0一致的形式Q
m
，转换后的装备能力指标向量为Q
m
＝[q
m1
,q
m2
,
…
,q
mN
]；
①
P
m
中存在，Q0中不存在的元素，Q
m
不予考虑；
②
Q0中存在，P
m
中不存在的元素，Q
m
中该元素值为0；
③
Q0和P
m
都存在的元素，将P
m
的元素赋值到Q
m
的对应位置；
④
P
m
的能力指标与Q0的指标需求不完全匹配，P
m
中存在多项与Q0某项能力需求相关的指标，将P
m
中最偏离能力需求的指标赋值到Q
m
的该项能力指标的对应位置；
⑤
P
m
的能力指标与Q0的指标需求不完全匹配，Q0中存在多项与P
m
某项能力指标相关的能力需求，将P
m
中的能力指标分别赋值到Q
m
的多项相关能力指标的对应位置；其中，Q0＝[q
01
,q
02
,
…
,q
0N
]为任务的能力需求指标向量，N表示能力指标的种类数量；P
m
＝[p
m1
,p
m2
,
…
]为第m个装备的能力指标向量，m＝1,2,
…
,M，M为装备的数量。4.根据权利要求2所述的方法，其特征在于，所述步骤12包括：多装备组合能力通过如下计算公式，分为叠加型、min/max型和概率型：
其中，q
f
为多装备组合能力，j∈{1,2,
…
,N}为能力种类索引，E＝{e1,e2,
…
,e
N
}为装备组合方案，e
i
∈{0,...

【专利技术属性】
技术研发人员：李奇真，龙慧敏，张萌，刘勇，董海，
申请(专利权)人：中国电子科技集团公司第十研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人