一种基于人机结合策略学习的目标智能分配方法和系统技术方案

技术编号:33125155 阅读:57 留言:0更新日期:2022-04-17 00:33
本发明专利技术公开了一种基于人机结合策略学习的目标智能分配方法和系统,该包括:步骤1,基于人工经验准则策略样本库,建模并训练得到目标分配准则模型;步骤2,基于AHP的量化样本库,建模并训练得到目标特性量化模型;步骤3,根据任务需求和目标态势输入,利用步骤1得到的目标分配准则模型和步骤2得到的目标特性量化模型,进行目标分配建模优化,得到目标分配结果。本发明专利技术能够有效融入人类经验,同时支持目标分配的机器学习与训练,有效发挥人机各自的特长的目标分配方法需要探索,以促进人机结合策略学习,提升决策效果和效率。提升决策效果和效率。提升决策效果和效率。

【技术实现步骤摘要】
一种基于人机结合策略学习的目标智能分配方法和系统


[0001]本专利技术属于目标智能分配
,尤其涉及一种基于人机结合策略学习的目标智能分配方法和系统。

技术介绍

[0002]随着智能、网络、协同与控制技术和无人平台技术的发展,各类无人集群系统发展迅速。这些集群目标机动能力强、构型灵活,拥有速度优势、协同优势和数量优势。利用以集群对集群的方式,能够实施有效反制。在集群对抗过程中,目标智能分配是其中的难点问题。从技术方法上讲,目标分配具有典型的复杂非线性特征,属于NP难问题。
[0003]常用的目标分配传统算法主要包括分支定界法、隐枚举法、动态规划法和割平面法,这些算法流程较为繁琐,难以处理大规模目标分配问题。启发式优化方法,通过模拟自然现象或过程,为处理复杂问题提供新方法和新思路,包括遗传算法(GA)、粒子群算法(PSO)、蚁群算法(ACO)、差分进化算法(DE)等。
[0004]具体而言,如:装甲兵工程学院徐克虎提出了一种全局更新和局部更新的人工免疫算法,采用最优抗体抑制技术避免陷入局部最优,具有较宽的收敛速度和精度。空军指挥学院王邑根据从已知决策中推理生成新的决策,减少重复搜索的思路,利用分支界限法得到分配方案的训练样本,通过构造并行运行模糊K近邻分类器的机器学习方法推导目标分配方案,实现快速决策。国防科技大学杨晓凌通过改造原始类电磁算法的种群初始化、局部搜索、合力计算及粒子移动等步骤,使之适应目标问题的整数解空间。通过将种群中个体模拟为带电粒子,吸引和排斥作用引导个体朝最优解方向移动,全局搜索能力强,初步应用于项目调度和函数优化等领域。哈尔滨工业大学王子建对多目标拦截器的拦截器拦截能力预测方法、目标分配决策方法和协同拦截策略决策方法进行了研究,设计了用于决策拦截器拦截策略的模型,最后通过仿真验证了模型对于协同拦截策略决策问题的有效性。美国BAE公司针对多目标情况下如何动态地将每个武器分配给目标,采用基于控制的方法对武器进行动态目标分配(DWTA)。韩国延世大学团队采用启发式遗传算法进行多目标分配,引入启发式信息,有效加快算法执行效率,避免遗传算法早熟。
[0005]上述传统方法在解决目标分配问题过程中,主要通过问题建模、模型求解等环节获得最优的决策方案。但由于传统方法的模型构建根据专家经验实现,所考虑的约束条件有限,对态势的理解、目标威胁的分析不足,导致构建的模型不准,并且,建模过程缺少对不同决策时间之间的相互影响的全局性考虑,以静态决策为主,缺乏预判性。而动态分配在静态分配模型的基础上,加入了对过程中可能出现的随机事件的建模,但也增加了问题求解的复杂度。另外,对附加约束的非线性优化模型进行求解时,需要进行多轮次迭代寻优,求解速度较慢,优化过程还可能陷入局部最优值或者发散,而无法获得可用的目标分配结果。

技术实现思路

[0006]本专利技术的技术解决问题:克服现有技术的不足,提供一种基于人机结合策略学习
的目标智能分配方法和系统,能够有效融入人类经验,同时支持目标分配的机器学习与训练,有效发挥人机各自的特长的目标分配方法需要探索,以促进人机结合策略学习,提升决策效果和效率。
[0007]为了解决上述技术问题,本专利技术公开了一种基于人机结合策略学习的目标智能分配方法,包括:
[0008]步骤1,基于人工经验准则策略样本库,建模并训练得到目标分配准则模型;
[0009]步骤2,基于AHP的量化样本库,建模并训练得到目标特性量化模型;
[0010]步骤3,根据任务需求和目标态势输入,利用步骤1得到的目标分配准则模型和步骤2得到的目标特性量化模型,进行目标分配建模优化,得到目标分配结果。
[0011]在上述基于人机结合策略学习的目标智能分配方法中,目标分配准则模型中至少包括如下分配准则:基于最大毁伤概率准则、基于最大威胁准则、基于威胁度随机分配准则、基于最大毁伤概率最少单元准则、基于最大效费比准则、基于逃逸时间与剩余均衡准则和基于最小化总时间准则。
[0012]在上述基于人机结合策略学习的目标智能分配方法中,基于人工经验准则策略样本库,建模并训练得到目标分配准则模型,包括:
[0013]建立人工经验准则策略样本库;
[0014]将人工经验准则策略样本中的各样本输入到基于强化学习的准则策略学习模型中进行训练,同时,由上文的基本准则策略模型提供策略选择结果对应的具体准则,经过强化学习训练,得到准则策略学习模型的网络模型参数,进而构建得到目标分配准则模型。
[0015]在上述基于人机结合策略学习的目标智能分配方法中,人工经验准则策略样本库中至少包括:多种任务需求、多种态势输入情况,以及对应不同任务需求、态势输入组合条件下的人工策略选择结果。
[0016]在上述基于人机结合策略学习的目标智能分配方法中,目标特性量化模型,用于确定在对目标威胁进行综合评估时所涉及的定性和定量因素,至少包括:是否为上级指定、发射点位置、预测落点位置、射程、关机点速度、再入速度、毁伤类型、毁伤威力、毁伤影响、毁伤难以程度、生存能力、机动能力、命中精度、剩余飞行时间、最大高度和目标重要度。
[0017]在上述基于人机结合策略学习的目标智能分配方法中,基于AHP的量化样本库,建模并训练得到目标特性量化模型,包括:
[0018]建立基于AHP的量化样本库;
[0019]将基于AHP的量化样本库中的各样本输入到基于强化学习的量化策略学习模型中进行训练,同时,由上文的目标特性量化建模提供相应的要素建模,经过强化学习训练,得到量化策略学习模型的网络模型参数,进而构建得到目标特性量化模型。
[0020]在上述基于人机结合策略学习的目标智能分配方法中,基于AHP的量化样本库中至少包括:在目标分配任务中的定量评估要素类型、要素间两两相对重要度评分和不同组合条件下的人工量化经验结果。
[0021]在上述基于人机结合策略学习的目标智能分配方法中,
[0022]基于最大毁伤概率准则的模型表示如下:
[0023][0024][0025]其中,m表示目标数,n表示火力单元数,i表示火力单元编号,j表示目标编号,i=1,2,

,m,j=1,2,

,m;x
ij
表示分配决策变量,若分配第i个火力单元打击第j个目标,则x
ij
=1,否则x
ij
=0;p
ij
表示第i个火力单元对第j个目标的毁伤概率;w
j
表示第j个目标的威胁值;
[0026]基于最大威胁准则的模型表示如下:
[0027][0028]基于威胁度随机分配准则的模型表示如下:
[0029][0030]基于最大毁伤概率最少单元准则的模型表示如下:
[0031][0032][0033]其中,P
dj
表示第j个目标的预设毁伤概率门限,P
j
表示所分配火力对第j个目标的联合毁伤概率,为P...

【技术保护点】

【技术特征摘要】
1.一种基于人机结合策略学习的目标智能分配方法,其特征在于,包括:步骤1,基于人工经验准则策略样本库,建模并训练得到目标分配准则模型;步骤2,基于AHP的量化样本库,建模并训练得到目标特性量化模型;步骤3,根据任务需求和目标态势输入,利用步骤1得到的目标分配准则模型和步骤2得到的目标特性量化模型,进行目标分配建模优化,得到目标分配结果。2.根据权利要求1所述的基于人机结合策略学习的目标智能分配方法,其特征在于,目标分配准则模型中至少包括如下分配准则:基于最大毁伤概率准则、基于最大威胁准则、基于威胁度随机分配准则、基于最大毁伤概率最少单元准则、基于最大效费比准则、基于逃逸时间与剩余均衡准则和基于最小化总时间准则。3.根据权利要求2所述的基于人机结合策略学习的目标智能分配方法,其特征在于,基于人工经验准则策略样本库,建模并训练得到目标分配准则模型,包括:建立人工经验准则策略样本库;将人工经验准则策略样本中的各样本输入到基于强化学习的准则策略学习模型中进行训练,同时,由上文的基本准则策略模型提供策略选择结果对应的具体准则,经过强化学习训练,得到准则策略学习模型的网络模型参数,进而构建得到目标分配准则模型。4.根据权利要求3所述的基于人机结合策略学习的目标智能分配方法,其特征在于,人工经验准则策略样本库中至少包括:多种任务需求、多种态势输入情况,以及对应不同任务需求、态势输入组合条件下的人工策略选择结果。5.根据权利要求1所述的基于人机结合策略学习的目标智能分配方法,其特征在于,目标特性量化模型,用于确定在对目标威胁进行综合评估时所涉及的定性和定量因素,至少包括:是否为上级指定、发射点位置、预测落点位置、射程、关机点速度、再入速度、毁伤类型、毁伤威力、毁伤影响、毁伤难以程度、生存能力、机动能力、命中精度、剩余飞行时间、最大高度和目标重要度。6.根据权利要求5所述的基于人机结合策略学习的目标智能分配方法,其特征在于,基于AHP的量化样本库,建模并训练得到目标特性量化模型,包括:建立基于AHP的量化样本库;将基于AHP的量化样本库中的各样本输入到基于强化学习的量化策略学习模型中进行训练,同时,由上文的目标特性量化建模提供相应的要素建模,经过强化学习训练,得到量化策略学习模型的网络模型参数,进而构建得到目标特性量化模型。7.根据权利要求6所述的基于人机结合策略学习的目标智能分配方法,其特征在于,基于AHP的量化样本库中至少包括:在目标分配任务中的定量评估要素类型、要素间两两相对重要度评分和不同组合条件下的人工量化经验结果。8.根据权利要求2所述的基于人机结合策略学习的目标智能分配方法,其特征在于,基于最大毁伤概率准则的模型表示如下:
其中,m表示目标数,n表示火力单元数,i表示火力单元编号,j表示目标编号,i=1,2,

,m,j=1,2,

,m;x
ij
表示分配决策变量,若分配第i个火力单元打击第j个目标,则x
ij
=1,否则x
ij
...

【专利技术属性】
技术研发人员:惠俊鹏阎岩路鹰陈海鹏黄虎李丝然范中行范佳宣李博遥任金磊王振亚李君郑本昌何昳頔张佳吴志壕刘峰张旭辉王鹏吴海华刘岱周辉古月肖肖
申请(专利权)人:中国运载火箭技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1