一种基于强化学习的能力匹配组合优化方法技术

技术编号:39134377 阅读:7 留言:0更新日期:2023-10-23 14:52
本发明专利技术公开一种基于强化学习的能力匹配组合优化方法,其包括:利用任务能力需求向量、各装备的能力指标向量以及装备调度与损耗成本构建能力匹配组合优化模型;将任务能力需求向量、装备能力向量作为输入序列的一个元素输入到指针网络编码器,输入序列通过编码器生成编码向量;将编码向量作为译码器输入,译码器确定输出序列,装备组合的成本阈值作为译码停止条件;计算装备组合的综合能力并将其作为组合优化方案的收益,利用Actor

【技术实现步骤摘要】
一种基于强化学习的能力匹配组合优化方法


[0001]本专利技术涉及多装备协同组合优化
,特别是一种基于强化学习的任务需求

装备能力匹配组合优化方法。

技术介绍

[0002]独立装备所具备的能力相对单一,要满足任务能力需求必须将多装备平台有机地组合并形成完整的体系。不同的任务对装备的能力需求存在差异,如何组合运用多装备在有效完成任务的同时降低装备运用成本是近年来国内外研究热点。面向任务需求的装备组合运用研究重点包括:任务的能力需求分析、单装备能力量化、多装备组合能力计算以及多装备协同组合优化。本专利技术所涉及的方法建立在任务能力需求分析、装备能力有效量化的基础上,面向任务能力需求对多装备进行匹配组合优化。
[0003]现有的多装备组合优化相关技术资料多集中在组合优化模型的构建,且采用启发式的方法求解组合优化方案。南京陆军指挥学院王本胜等人分析了“使命

任务

实体能力”之间的映射关系,但未给出相应的匹配组合优化方法(参见非专利文献1)。国防科技大学段采宇等人分析了装备体系需求指标结构,建立了基于任务需求、能力需求、和能力缝隙的装备体系数学模型,未给出有效的匹配组合优化方法(参见非专利文献2)。随着体系向多域、分布式方向发展,对其中装备的海量化、多元化需求提高,传统方法解决装备组合优化问题其复杂度呈指数型增长。因此,设计高效的装备组合优化算法是未体系亟待解决的问题。
[0004]近年来,采用深度学习、强化学习解决组合优化问题成为学术界研究的热点(如专利文献3)。深度学习为监督学习方法,采用监督学习方法训练存在以下问题:1)监督学习标签为方案的优劣程度,模型性能取决于监督标签的质量;2)监督学习标签往往需要其他算法得到,很难获得NP

hard问题的高质量标签;3)算法的目的找到更优的解而不是复制其他算法的解。强化学习为非监督学习方法,能够根据收益优化策略,从而不断逼近最优组合优化方案。
[0005]鉴于强化学习在解决组合优化问题上的优势,一些学者将强化学习应用到解决装备组合优化问题上,国防大学文东日等人建立了基于深度强化学习的装备组合运用方法的概念、模型、框架,用单一的量化分值衡量任务能力需求和装备能力指标(参见非专利文献4)。国防科技大学张骁雄等人构建了单阶段多目标优化模型,并设计了基于非支配排序遗传算法的求解算法以生成各阶段的Pareto解,在此基础上建立多阶段的组合优化模型并用Q

Learning求解多阶段组合优化方案(参见非专利文献5)。这些装备组合优化模型没有针对不同的能力指标计算相应的多装备组合能力,以及以最大化综合能力为目标构建面向能力的装备组合优化模型,因而可能导致不能以最大能力保障完成任务。
[0006]引用列表
[0007]非专利文献
[0008]非专利文献1:王本胜,王涛.基于任务

能力匹配的联合作战需求建模[J].指挥信息系统与技术,2012,2(3):5

9.
[0009]非专利文献2:段采宇,张维明,叶剑良,余滨.装备体系需求开发研究:能力任务匹配方法[J].系统工程与电子技术,2010,32(3):527

532.
[0010]非专利文献3:李凯文,张涛,王锐,覃伟健,贺惠晖,黄鸿.基于深度强化学习的组合优化研究进展[J].自动化学报,2021,47(11):2521

2537.
[0011]非专利文献4:文东日,陈小虎,李文,杜二锋.基于深度强化学习的装备组合运用方法[J].指挥控制与仿真,2021,43(6):135

140.
[0012]非专利文献5:张骁雄,丁松,李明浩,丁鲲,王龙,义余江.强化学习在多阶段装备组合规划问题中的应用[J].国防科技大学学报,2021,43(5):127

136.

技术实现思路

[0013]鉴于此,本专利技术提供了一种基于强化学习的能力匹配组合优化方法,根据不同的能力属性计算相应的多装备组合能力,以最大化综合能力为目标构建面向能力的装备组合优化模型,将优化模型转化为典型的背包问题,采用基于指针网络的Actor

Critic强化学习方法求解最优装备组合方案。
[0014]本专利技术公开了一种基于强化学习的能力匹配组合优化方法,其包括:
[0015]步骤1:利用任务的能力需求向量、各装备的能力指标向量以及装备调度与损耗成本构建能力匹配组合优化模型;
[0016]步骤2:将任务能力需求向量、各装备能力指标向量作为输入序列的一个元素输入到指针网络编码器,将输入序列生成为编码向量;
[0017]步骤3:将指针网络编码器输出的编码向量作为指针网络译码器的输入,译码器采用注意力机制确定输出序列,装备组合的综合成本阈值作为译码停止条件;
[0018]步骤4:采用Actor

Critic强化学习算法求解最优装备组合方案,所述指针网络作为Actor网络,输出装备组合方案,根据能力匹配组合优化模型计算装备组合的综合能力并将其作为强化学习算法的收益,采用梯度上升法优化指针网络参数,滑动平均收益与当前策略下收益的均方误差作为Critic网络的损失函数,并采用梯度下降法更新Critic网络的参数;
[0019]步骤5:对Actor网络和Critic网络进行训练,获得不同能力需求和装备指标向量下的最优装备组合方案求解器;
[0020]步骤6:推理阶段,从实际场景中获取任务能力需求向量、各装备的能力指标向量,输入到能力匹配优化模型的Actor指针网络中,依次输出组合方案的各装备编号,直到装备组合的综合成本达到综合成本阈值,推理结束,输出装备组合方案。
[0021]进一步地,所述步骤1包括:
[0022]步骤11:基于任务的能力需求指标向量,将各装备的能力指标向量进行一致性转换,得到转换后的各装备的能力指标向量;
[0023]步骤12:计算多装备组合能力;
[0024]步骤13:计算多装备相对组合能力;
[0025]步骤14:计算装备组合后的综合能力;
[0026]步骤15:根据装备的调度成本和损耗成本,得到装备组合后的综合成本;
[0027]步骤16:以装备组合后的综合能力的最大化为优化目标,以装备组合后的综合成
本小于或等于综合成本阈值W为约束条件建立能力匹配组合优化模型。
[0028]进一步地,所述步骤11包括:
[0029]P
m
按照如下方法转换为与Q0一致的形式Q
m
,转换后的装备能力指标向量为Q
m
=[q
m1
,q
m2
,

,q
mN
];
[0030]①
P
m
中存在,Q0中不存本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的能力匹配组合优化方法,其特征在于,包括:步骤1:利用任务的能力需求向量、各装备的能力指标向量以及装备调度与损耗成本构建能力匹配组合优化模型;步骤2:将任务能力需求向量、各装备能力指标向量作为输入序列的一个元素输入到指针网络编码器,将输入序列生成为编码向量;步骤3:将指针网络编码器输出的编码向量作为指针网络译码器的输入,译码器采用注意力机制确定输出序列,装备组合的综合成本阈值作为译码停止条件;步骤4:采用Actor

Critic强化学习算法求解最优装备组合方案,所述指针网络作为Actor网络,输出装备组合方案,根据能力匹配组合优化模型计算装备组合的综合能力并将其作为强化学习算法的收益,采用梯度上升法优化指针网络参数,滑动平均收益与当前策略下收益的均方误差作为Critic网络的损失函数,并采用梯度下降法更新Critic网络的参数;步骤5:对Actor网络和Critic网络进行训练,获得不同能力需求和装备指标向量下的最优装备组合方案求解器;步骤6:推理阶段,从实际场景中获取任务能力需求向量、各装备的能力指标向量,输入到能力匹配优化模型的Actor指针网络中,依次输出组合方案的各装备编号,直到装备组合的综合成本达到综合成本阈值,推理结束,输出装备组合方案。2.根据权利要求1所述的方法,其特征在于,所述步骤1包括:步骤11:基于任务的能力需求指标向量,将各装备的能力指标向量进行一致性转换,得到转换后的各装备的能力指标向量;步骤12:计算多装备组合能力;步骤13:计算多装备相对组合能力;步骤14:计算装备组合后的综合能力;步骤15:根据装备的调度成本和损耗成本,得到装备组合后的综合成本;步骤16:以装备组合后的综合能力的最大化为优化目标,以装备组合后的综合成本小于或等于综合成本阈值W为约束条件建立能力匹配组合优化模型。3.根据权利要求2所述的方法,其特征在于,所述步骤11包括:P
m
按照如下方法转换为与Q0一致的形式Q
m
,转换后的装备能力指标向量为Q
m
=[q
m1
,q
m2
,

,q
mN
];

P
m
中存在,Q0中不存在的元素,Q
m
不予考虑;

Q0中存在,P
m
中不存在的元素,Q
m
中该元素值为0;

Q0和P
m
都存在的元素,将P
m
的元素赋值到Q
m
的对应位置;

P
m
的能力指标与Q0的指标需求不完全匹配,P
m
中存在多项与Q0某项能力需求相关的指标,将P
m
中最偏离能力需求的指标赋值到Q
m
的该项能力指标的对应位置;

P
m
的能力指标与Q0的指标需求不完全匹配,Q0中存在多项与P
m
某项能力指标相关的能力需求,将P
m
中的能力指标分别赋值到Q
m
的多项相关能力指标的对应位置;其中,Q0=[q
01
,q
02
,

,q
0N
]为任务的能力需求指标向量,N表示能力指标的种类数量;P
m
=[p
m1
,p
m2
,

]为第m个装备的能力指标向量,m=1,2,

,M,M为装备的数量。4.根据权利要求2所述的方法,其特征在于,所述步骤12包括:多装备组合能力通过如下计算公式,分为叠加型、min/max型和概率型:
其中,q
f
为多装备组合能力,j∈{1,2,

,N}为能力种类索引,E={e1,e2,

,e
N
}为装备组合方案,e
i
∈{0,...

【专利技术属性】
技术研发人员:李奇真龙慧敏张萌刘勇董海
申请(专利权)人:中国电子科技集团公司第十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1