基于QMIX的航空兵多编队协同自主行为决策建模方法技术

技术编号:35220192 阅读:12 留言:0更新日期:2022-10-15 10:37
本发明专利技术公开了一种基于QMIX的航空兵多编队协同自主行为决策建模方法,包括步骤:将航空兵多编队协同作战体系的行为决策进行层次划分,自上而下依次为调度层

【技术实现步骤摘要】
Trainingwith Decentralized Execution,CTDE)方式,以集中的端到端方式训练分散的多智能体博弈策略,如:VDN(value decomposition networks),QMIX;在训练过程中使用全局信息帮助智能体学习,不需要复杂的通信建模过程,兼具易实现性和高效性,具有较好的可复现性,具有解决协同问题以及动作空间指数增长问题的前景。
[0006]此外,奖赏函数设计困难的问题是目前制约强化学习性能进一步提高的关键因素。知识是人类认识世界的成果与总结,在MARL中引入知识,不仅可以提高深度强化学习的收敛速度以及航空兵CGF的探索能力,还能解决奖赏设计困难的问题。将知识引入强化学习的方法包括:专家在线指导、模仿学习、逆向强化学习等,在特定场景下均取得较好的试验效果。因此,基于CTDE多智能体强化学习算法并引入先验知识突破航空兵多编队协同对抗自主决策行为建模技术,对解决高动态、不确定性及多编队对抗环境下的自主对抗仿真问题,形成有效的航空兵多编队决策行为建模方法具有重要的理论意义和军事应用价值。

技术实现思路

[0007]在航空兵仿真规模扩大以及航空兵编队协作行为备受关注的背景下,如何对航空兵多编队协同自主行为进行仿真建模,已成为一个急需解决的关键技术问题。传统基于规则等行为建模方式存在领域知识获取困难,建模工作量大、效率低的缺点,且生成的行为固定、缺乏适应性等缺点。本专利技术以航空兵多编队协同对抗为背景,旨在将MARL算法引入航空兵多编队协同自主行为决策建模,重点解决以下两方面的技术问题:(1)将多智能体强化学习算法融入多编队协同行为决策建模中来,形成基于多智能体的协同自主行为决策建模的完整流程。(2)解决强化学习网络中奖励函数的设计优化问题,提升智能体的训练效果,加速训练过程,同时使得策略学习的过程更加稳定。在此基础上,将多智能体强化学习算法融入航空兵多编队协同对抗仿真系统中,通过迭代训练形成有效的、高回报的空中兵力作战行为序列空间,为构建基于多智能体强化学习的智能航空兵多编队指挥决策模型提供支撑,进一步为研究在新场景下作战指挥策略的优化,以及为提升航空兵多编队协同作战水平提供有效的理论基础和技术辅助。
[0008]针对航空兵多编队协同空战任务,本专利技术中采用的算法解决思路是集中训练分散执行的方式,在这类算法中,有基于Actor

Critic框架的算法 (如MADDPG、COMA等)和基于值分解的算法(如VDN、QMIX等)。其中,值分解方法更适用于离散动作空间,具有较好的可复现性。QMIX是一种可以有效解决完全合作型多智能体决策问题的值分解算法。鉴于本专利技术中智能体动作空间为离散型,因此采用QMIX算法实现航空兵多编队自主空战机动决策。针对奖励函数设计困难的问题,本专利技术采用最大熵逆向强化学习(Maximum Entropy Inverse Reinforcement Learning,MaxEnt IRL)算法将知识引入,达到奖励函数优化的目的,并提升MARL算法的训练效果和收敛速度。
[0009]本专利技术建立了一个基于QMIX算法的航空兵多编队智能协同自主对抗决策模型。现代航空兵空战对抗场景中,往往涉及不同航空兵编队的协同配合,参战航空兵力多达几十架次。为了避免状态空间以及输出动作空间的维数爆炸问题,提高基于多智能体强化学习算法行为决策模型的训练效果,首先对航空兵多编队的任务进行层次划分,如图1所示。
[0010]其中,调度层决策面向多个编队的任务调度,包括任务执行主体编队、作战任务选择、任务执行目标区域、打击目标选择。编队层决策编队内的装备平台任务分配,包括单平
台任务状态分析、单平台任务分配和单平台目标选择。单机层决策面向单机装备平台的基本可执行任务,比如歼击机的空中拦截、轰炸机的目标突击以及预警机的情报探测等。
[0011]采用基于多智能体强化学习的调度行为建模、基于规则集、有限状态机的行为建模等方法,融合多种决策方法的优点,提升学习效率,形成传统方法+深度强化学习方法的通用兵力行为决策建模算法库,为多平台对抗任务行为决策提供方法支撑。
[0012]在构建基于QMIX算法的调度层行为决策模型时,针对强化学习算法中奖励函数直接设计困难的问题,本专利技术采用MaxEnt IRL算法,通过引入专家决策采样器,实现在离散决策任务中奖励函数的优化。最后再将奖励函数代入到强化学习的QMIX算法中,形成构建航空兵多编队自主决策智能行为模型的完整技术链条。调度层自主行为决策建模的整体流程如图2所示。
[0013]本专利技术提供一种基于QMIX算法的航空兵多编队协同自主决策行为建模方法,包括以下步骤:
[0014]第一步:将航空兵多编队协同作战体系的行为决策进行层次划分,自上而下依次为调度层

编队层

单机层;其中,调度层对不同航空兵编队的巡逻区域进行决策;编队层基于规则集对编队内的单机进行任务分配,包括单平台任务状态分析、任务分配和平台目标选择;单机层基于有限状态机对单机的可执行任务进行决策,包含执行对敌任务、前往指定区域巡逻和返航三个状态;
[0015]第二步:在调度层基于QMIX算法,根据航空兵多编队协同作战的特点,提取表示多编队航空兵协同作战态势的特征向量,构建调度层QMIX算法的输入状态空间;
[0016]第三步:在调度层基于QMIX算法,根据不同航空兵编队的作战特点和可执行任务,设计不同航空兵编队的行为决策空间;
[0017]第四步:设计QMIX算法中奖励函数的元素组成,并初始化组成元素权重,形成初始奖励函数;
[0018]第五步:基于QMIX算法,融合所述输入状态空间、所述行为决策空间以及所述初始奖励函数,形成航空兵多编队协同自主行为决策模型;
[0019]第六步:采用MaxEnt IRL算法,引入专家策略采样器,对所述航空兵多编队协同自主行为决策模型进行迭代优化训练,得到优化后的奖励函数和决策策略。
[0020]进一步,所述第二步包括以下子步骤:
[0021]步骤201:航空兵协同作战体系中包含但不限于歼击机编队、轰炸机编队和预警机,根据对空战态势的影响,选取所有飞机的三维坐标位置 (X
r
,Y
r
,Z
r
)、兵力类型LX
r
、航向H
r
、速度V、携弹量D_num
r
以及我方探测信息域覆盖比I
r
,共同构成基于QMIX网络的调度层指挥决策模型的状态输入空间S=<X
r
,Y
r
,Z
r
,LX
r
,H
r
,D_num
r
,V,I
r
>;
[0022]步骤202:对于战场态势信息的计算,首先,从每帧返回的态势信息中筛选出所有存活飞机的当前位置,根据不同飞机类型的属性得到不同类型飞机的信息探测本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于QMIX的航空兵多编队协同自主行为决策建模方法,其特征在于,包括以下步骤:第一步:将航空兵多编队协同作战体系的行为决策进行层次划分,自上而下依次为调度层

编队层

单机层;其中,调度层对不同航空兵编队的巡逻区域进行决策;编队层基于规则集对编队内的单机进行任务分配,包括单平台任务状态分析、任务分配和平台目标选择;单机层基于有限状态机对单机的可执行任务进行决策,包含执行对敌任务、前往指定区域巡逻和返航三个状态;第二步:在调度层基于QMIX算法,根据航空兵多编队协同作战的特点,提取表示多编队航空兵协同作战态势的特征向量,构建调度层QMIX算法的输入状态空间;第三步:在调度层基于QMIX算法,根据不同航空兵编队的作战特点和可执行任务,设计不同航空兵编队的行为决策空间;第四步:设计QMIX算法中奖励函数的元素组成,并初始化组成元素权重,形成初始奖励函数;第五步:基于QMIX算法,融合所述输入状态空间、所述行为决策空间以及所述初始奖励函数,形成航空兵多编队协同自主行为决策模型;第六步:采用MaxEnt IRL算法,引入专家策略采样器,对所述航空兵多编队协同自主行为决策模型进行迭代优化训练,得到优化后的奖励函数和决策策略。2.根据权利要求1所述的方法,其特征在于,所述第二步包括以下子步骤:步骤201:航空兵协同作战体系中包含但不限于歼击机编队、轰炸机编队和预警机,根据对空战态势的影响,选取所有飞机的三维坐标位置(X
r
,Y
r
,Z
r
)、兵力类型LX
r
、航向H
r
、速度V、携弹量D_num
r
以及我方探测信息域覆盖比I
r
,共同构成基于QMIX网络的调度层指挥决策模型的状态输入空间S=<X
r
,Y
r
,Z
r
,LX
r
,H
r
,D_num
r
,V,I
r
>;步骤202:对于战场态势信息的计算,首先,从每帧返回的态势信息中筛选出所有存活飞机的当前位置,根据不同飞机类型的属性得到不同类型飞机的信息探测范围;其次,将所有存活飞机位置和信息域探测范围进行融合处理,得到航空兵多编队的整体信息域态势图;最后,根据信息域探测范围与整体战场范围的比值,可得到信息域相对态势的量化表示I
r
,即探测信息域覆盖范围;步骤203:针对QMIX网络中不同的智能体,选取其视距内的飞机状态信息,构成该智能体的观测量o。3.根据权利要求2所述的方法,其特征在于,所述第三步包括以下子步骤:步骤301:首先将作战区域划分为pn个不同的巡逻区域;步骤302:每帧仿真运行时,假设基于QMIX网络的作战指挥决策模型输出三个区域巡逻位置pos
r
=<pj,ph,py>,其中pj∈{P1,P2,...,P
jn
}(jn≤pn)、ph∈{P1,P2,...,P
hn
}(hn≤pn)、py∈{P
45
,P2,...,P
yn
}(yn≤pn),pj表示歼击机编队的区域巡逻位置,ph表示轰炸机编队的区域巡逻位置,py表示预警机编队的区域巡逻位置。4.根据权利要求3所述的方法,其特征在于,所述第四步,所述奖励函数为:r
θ
(s
i
,a
i
)=(θ)
T
f其中,r
θ
(s
i
,a
i
)为奖励函数;s
i
为第i帧的状态;a
i
为第i帧的动作;θ表示奖励函数权重向量,每个元素初始化为1;f为奖励函数特征向量。
5.根据权利要求4所述的方法,其特征在于,所述第五步包括以下子步骤:步骤501:初始化战场态势和QMIX网络参数;步骤502:对学习率lr、经验回放池容量memory_length、探索程度ε、目标网络参数更新频率replace_target_iter、单次训练样本量batch_size进行初始化设置;步骤503:依据所述输入状态空间,提取QMIX网络的当前状态空间信息s:s=<X
r
,Y
r
,Z
r
,LX
r
,H
r
,D_num
r
,I
r
,X
b
,Y
b
,Z
b
,LX
b
,H
b
,I
b
>其中,(X,Y,Z)为三维坐标位置;LX为兵力类型;H为航向;D_num为携弹量;I为探测信息域覆盖比;下标r表示我方,下标b表示敌方;步骤504:将获取到的当前状态空间信息s输入QMIX网络的预测网络,得到在当前态势下执行不同动作的预测价值,根据ε

greedy策略选...

【专利技术属性】
技术研发人员:李妮王泽龚光红董力维
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1