【技术实现步骤摘要】
Trainingwith Decentralized Execution,CTDE)方式,以集中的端到端方式训练分散的多智能体博弈策略,如:VDN(value decomposition networks),QMIX;在训练过程中使用全局信息帮助智能体学习,不需要复杂的通信建模过程,兼具易实现性和高效性,具有较好的可复现性,具有解决协同问题以及动作空间指数增长问题的前景。
[0006]此外,奖赏函数设计困难的问题是目前制约强化学习性能进一步提高的关键因素。知识是人类认识世界的成果与总结,在MARL中引入知识,不仅可以提高深度强化学习的收敛速度以及航空兵CGF的探索能力,还能解决奖赏设计困难的问题。将知识引入强化学习的方法包括:专家在线指导、模仿学习、逆向强化学习等,在特定场景下均取得较好的试验效果。因此,基于CTDE多智能体强化学习算法并引入先验知识突破航空兵多编队协同对抗自主决策行为建模技术,对解决高动态、不确定性及多编队对抗环境下的自主对抗仿真问题,形成有效的航空兵多编队决策行为建模方法具有重要的理论意义和军事应用价值。
技术实现思路
[0007]在航空兵仿真规模扩大以及航空兵编队协作行为备受关注的背景下,如何对航空兵多编队协同自主行为进行仿真建模,已成为一个急需解决的关键技术问题。传统基于规则等行为建模方式存在领域知识获取困难,建模工作量大、效率低的缺点,且生成的行为固定、缺乏适应性等缺点。本专利技术以航空兵多编队协同对抗为背景,旨在将MARL算法引入航空兵多编队协同自主行为决策建模,重点解决以下两方面的技术问题:(1)将多智能 ...
【技术保护点】
【技术特征摘要】
1.一种基于QMIX的航空兵多编队协同自主行为决策建模方法,其特征在于,包括以下步骤:第一步:将航空兵多编队协同作战体系的行为决策进行层次划分,自上而下依次为调度层
‑
编队层
‑
单机层;其中,调度层对不同航空兵编队的巡逻区域进行决策;编队层基于规则集对编队内的单机进行任务分配,包括单平台任务状态分析、任务分配和平台目标选择;单机层基于有限状态机对单机的可执行任务进行决策,包含执行对敌任务、前往指定区域巡逻和返航三个状态;第二步:在调度层基于QMIX算法,根据航空兵多编队协同作战的特点,提取表示多编队航空兵协同作战态势的特征向量,构建调度层QMIX算法的输入状态空间;第三步:在调度层基于QMIX算法,根据不同航空兵编队的作战特点和可执行任务,设计不同航空兵编队的行为决策空间;第四步:设计QMIX算法中奖励函数的元素组成,并初始化组成元素权重,形成初始奖励函数;第五步:基于QMIX算法,融合所述输入状态空间、所述行为决策空间以及所述初始奖励函数,形成航空兵多编队协同自主行为决策模型;第六步:采用MaxEnt IRL算法,引入专家策略采样器,对所述航空兵多编队协同自主行为决策模型进行迭代优化训练,得到优化后的奖励函数和决策策略。2.根据权利要求1所述的方法,其特征在于,所述第二步包括以下子步骤:步骤201:航空兵协同作战体系中包含但不限于歼击机编队、轰炸机编队和预警机,根据对空战态势的影响,选取所有飞机的三维坐标位置(X
r
,Y
r
,Z
r
)、兵力类型LX
r
、航向H
r
、速度V、携弹量D_num
r
以及我方探测信息域覆盖比I
r
,共同构成基于QMIX网络的调度层指挥决策模型的状态输入空间S=<X
r
,Y
r
,Z
r
,LX
r
,H
r
,D_num
r
,V,I
r
>;步骤202:对于战场态势信息的计算,首先,从每帧返回的态势信息中筛选出所有存活飞机的当前位置,根据不同飞机类型的属性得到不同类型飞机的信息探测范围;其次,将所有存活飞机位置和信息域探测范围进行融合处理,得到航空兵多编队的整体信息域态势图;最后,根据信息域探测范围与整体战场范围的比值,可得到信息域相对态势的量化表示I
r
,即探测信息域覆盖范围;步骤203:针对QMIX网络中不同的智能体,选取其视距内的飞机状态信息,构成该智能体的观测量o。3.根据权利要求2所述的方法,其特征在于,所述第三步包括以下子步骤:步骤301:首先将作战区域划分为pn个不同的巡逻区域;步骤302:每帧仿真运行时,假设基于QMIX网络的作战指挥决策模型输出三个区域巡逻位置pos
r
=<pj,ph,py>,其中pj∈{P1,P2,...,P
jn
}(jn≤pn)、ph∈{P1,P2,...,P
hn
}(hn≤pn)、py∈{P
45
,P2,...,P
yn
}(yn≤pn),pj表示歼击机编队的区域巡逻位置,ph表示轰炸机编队的区域巡逻位置,py表示预警机编队的区域巡逻位置。4.根据权利要求3所述的方法,其特征在于,所述第四步,所述奖励函数为:r
θ
(s
i
,a
i
)=(θ)
T
f其中,r
θ
(s
i
,a
i
)为奖励函数;s
i
为第i帧的状态;a
i
为第i帧的动作;θ表示奖励函数权重向量,每个元素初始化为1;f为奖励函数特征向量。
5.根据权利要求4所述的方法,其特征在于,所述第五步包括以下子步骤:步骤501:初始化战场态势和QMIX网络参数;步骤502:对学习率lr、经验回放池容量memory_length、探索程度ε、目标网络参数更新频率replace_target_iter、单次训练样本量batch_size进行初始化设置;步骤503:依据所述输入状态空间,提取QMIX网络的当前状态空间信息s:s=<X
r
,Y
r
,Z
r
,LX
r
,H
r
,D_num
r
,I
r
,X
b
,Y
b
,Z
b
,LX
b
,H
b
,I
b
>其中,(X,Y,Z)为三维坐标位置;LX为兵力类型;H为航向;D_num为携弹量;I为探测信息域覆盖比;下标r表示我方,下标b表示敌方;步骤504:将获取到的当前状态空间信息s输入QMIX网络的预测网络,得到在当前态势下执行不同动作的预测价值,根据ε
‑
greedy策略选...
【专利技术属性】
技术研发人员:李妮,王泽,龚光红,董力维,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。