一种基于人机结合策略学习的目标智能分配方法和系统技术方案

技术编号：33125155 阅读：57 留言：0更新日期：2022-04-17 00:33

本发明专利技术公开了一种基于人机结合策略学习的目标智能分配方法和系统，该包括：步骤1，基于人工经验准则策略样本库，建模并训练得到目标分配准则模型；步骤2，基于AHP的量化样本库，建模并训练得到目标特性量化模型；步骤3，根据任务需求和目标态势输入，利用步骤1得到的目标分配准则模型和步骤2得到的目标特性量化模型，进行目标分配建模优化，得到目标分配结果。本发明专利技术能够有效融入人类经验，同时支持目标分配的机器学习与训练，有效发挥人机各自的特长的目标分配方法需要探索，以促进人机结合策略学习，提升决策效果和效率。提升决策效果和效率。提升决策效果和效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于人机结合策略学习的目标智能分配方法和系统

[0001]本专利技术属于目标智能分配
，尤其涉及一种基于人机结合策略学习的目标智能分配方法和系统。

技术介绍

[0002]随着智能、网络、协同与控制技术和无人平台技术的发展，各类无人集群系统发展迅速。这些集群目标机动能力强、构型灵活，拥有速度优势、协同优势和数量优势。利用以集群对集群的方式，能够实施有效反制。在集群对抗过程中，目标智能分配是其中的难点问题。从技术方法上讲，目标分配具有典型的复杂非线性特征，属于NP难问题。
[0003]常用的目标分配传统算法主要包括分支定界法、隐枚举法、动态规划法和割平面法，这些算法流程较为繁琐，难以处理大规模目标分配问题。启发式优化方法，通过模拟自然现象或过程，为处理复杂问题提供新方法和新思路，包括遗传算法(GA)、粒子群算法(PSO)、蚁群算法(ACO)、差分进化算法(DE)等。
[0004]具体而言，如：装甲兵工程学院徐克虎提出了一种全局更新和局部更新的人工免疫算法，采用最优抗体抑制技术避免陷入局部最优，具有较宽的收敛速度和精度。空军指挥学院王邑根据从已知决策中推理生成新的决策，减少重复搜索的思路，利用分支界限法得到分配方案的训练样本，通过构造并行运行模糊K近邻分类器的机器学习方法推导目标分配方案，实现快速决策。国防科技大学杨晓凌通过改造原始类电磁算法的种群初始化、局部搜索、合力计算及粒子移动等步骤，使之适应目标问题的整数解空间。通过将种群中个体模拟为带电粒子，吸引和排斥作用引导个体朝最优解方向移动，全局搜

【技术保护点】

【技术特征摘要】
1.一种基于人机结合策略学习的目标智能分配方法，其特征在于，包括：步骤1，基于人工经验准则策略样本库，建模并训练得到目标分配准则模型；步骤2，基于AHP的量化样本库，建模并训练得到目标特性量化模型；步骤3，根据任务需求和目标态势输入，利用步骤1得到的目标分配准则模型和步骤2得到的目标特性量化模型，进行目标分配建模优化，得到目标分配结果。2.根据权利要求1所述的基于人机结合策略学习的目标智能分配方法，其特征在于，目标分配准则模型中至少包括如下分配准则：基于最大毁伤概率准则、基于最大威胁准则、基于威胁度随机分配准则、基于最大毁伤概率最少单元准则、基于最大效费比准则、基于逃逸时间与剩余均衡准则和基于最小化总时间准则。3.根据权利要求2所述的基于人机结合策略学习的目标智能分配方法，其特征在于，基于人工经验准则策略样本库，建模并训练得到目标分配准则模型，包括：建立人工经验准则策略样本库；将人工经验准则策略样本中的各样本输入到基于强化学习的准则策略学习模型中进行训练，同时，由上文的基本准则策略模型提供策略选择结果对应的具体准则，经过强化学习训练，得到准则策略学习模型的网络模型参数，进而构建得到目标分配准则模型。4.根据权利要求3所述的基于人机结合策略学习的目标智能分配方法，其特征在于，人工经验准则策略样本库中至少包括：多种任务需求、多种态势输入情况，以及对应不同任务需求、态势输入组合条件下的人工策略选择结果。5.根据权利要求1所述的基于人机结合策略学习的目标智能分配方法，其特征在于，目标特性量化模型，用于确定在对目标威胁进行综合评估时所涉及的定性和定量因素，至少包括：是否为上级指定、发射点位置、预测落点位置、射程、关机点速度、再入速度、毁伤类型、毁伤威力、毁伤影响、毁伤难以程度、生存能力、机动能力、命中精度、剩余飞行时间、最大高度和目标重要度。6.根据权利要求5所述的基于人机结合策略学习的目标智能分配方法，其特征在于，基于AHP的量化样本库，建模并训练得到目标特性量化模型，包括：建立基于AHP的量化样本库；将基于AHP的量化样本库中的各样本输入到基于强化学习的量化策略学习模型中进行训练，同时，由上文的目标特性量化建模提供相应的要素建模，经过强化学习训练，得到量化策略学习模型的网络模型参数，进而构建得到目标特性量化模型。7.根据权利要求6所述的基于人机结合策略学习的目标智能分配方法，其特征在于，基于AHP的量化样本库中至少包括：在目标分配任务中的定量评估要素类型、要素间两两相对重要度评分和不同组合条件下的人工量化经验结果。8.根据权利要求2所述的基于人机结合策略学习的目标智能分配方法，其特征在于，基于最大毁伤概率准则的模型表示如下：
其中，m表示目标数，n表示火力单元数，i表示火力单元编号，j表示目标编号，i＝1,2,
…
,m，j＝1,2,
…
,m；x
ij
表示分配决策变量，若分配第i个火力单元打击第j个目标，则x
ij
＝1，否则x
ij
...

【专利技术属性】
技术研发人员：惠俊鹏，阎岩，路鹰，陈海鹏，黄虎，李丝然，范中行，范佳宣，李博遥，任金磊，王振亚，李君，郑本昌，何昳頔，张佳，吴志壕，刘峰，张旭辉，王鹏，吴海华，刘岱，周辉，古月，肖肖，
申请(专利权)人：中国运载火箭技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人