【技术实现步骤摘要】
多无人机协同空战决策自主学习及半实物仿真验证方法
[0001]本专利技术属于智能空战决策
,具体涉及一种用于多无人机自主学习协同空战策略及半实物仿真验证方法。
技术介绍
[0002]多无人机的自主协同空战问题一直受到军事领域关注。传统的自主空战决策方法,包括博弈论方法、优化理论方法、知识决策方法等,都没能很好地解决多无人机环境下空战的协同决策问题。例如,博弈论方法和优化理论方法都对参与决策的个体数量敏感,其计算复杂度随决策数量的增加呈指数增加;知识决策方法则需要通过复杂的知识工程获取决策知识,而众所周知的是,这一过程通常需要耗费大量的人力、财力。
[0003]基于深度强化学习的自学习方法为解决多无人机协同空战决策问题提供了新思路。深度强化学习方法无需事先准备领域知识,可以通过与环境的交互从零开始自我学习,持续提高决策水平,甚至创造出全新的战术。训练好的网络模型在实际使用时具有较好的实时性。目前,面向多Agent(代理)学习的QMIX框架能用于学习多无人机协同空战策略,但仍有学习过程收敛慢(甚至不收敛)、学习鲁棒性差等问题。
[0004]此外,为了高效率地为多机协同空战学习提供大量数据,并在高可信度环境中验证学习结果,有必要建立高可信度的仿真验证平台。半实物仿真又称硬件在回路(Hardware In The Loop,HITL)仿真,是指将研究对象的部分硬件实物加入仿真系统开展仿真试验的技术,比数字仿真具备更高的准确性和真实性,但同时也比实物验证更加便利、消耗更少,是实验室研究与实际部署应用之间必 ...
【技术保护点】
【技术特征摘要】
1.一种多无人机协同空战决策自主学习及半实物仿真验证方法,其特征在于,包括:(1)将多无人机协同空战决策问题建模为马尔可夫博弈过程,确定马尔可夫博弈中的状态空间、动作空间和即时回报函数;(2)采用QMIX框架建立多无人机协同空战决策网络模型,并改进模型学习框架;建立的多无人机协同空战决策网络模型包括:首先,为每架无人机建立单独的动作价值网络Q
i
(o
i
,a
i
),其中o
i
、a
i
分别表示无人机i的观测状态和动作;其次,为多无人机建立价值混合网络,价值混合网络包含一个全局动作价值函数网络Q
total
(s,a)和一个超参数网络,其中s、a分别表示全局状态和多无人机联合动作,超参数网络用于生成全局动作价值函数网络的参数;无人机个体的动作价值网络Q
i
(o
i
,a
i
)、全局动作价值函数网络Q
total
(s,a)以及超参数网络共同构成了学习框架的当前网络;模型学习框架中,将当前网络复制一份作为学习框架的目标网络,用于计算损失函数;在无人机的动作选择模块中,使用ε
‑
greedy策略设计动作选择策略,加入Min
‑
Max策略,同时加入动作掩码机制;在前期学习中,利用Min
‑
Max策略教导无人机如何决策,以获取最大回报;通过动作掩码机制防止无人机选择到不合理的机动动作;(3)建立半实物仿真验证环境,对多无人机协同空战策略决策模型进行仿真验证;所述半实物仿真验证环境包括Pixhawk飞控板、仿真软件Gazebo和地面站软件QGC;Pixhawk飞控板用于控制无人机飞行,仿真软件Gazebo用于建立无人机数字模型的动力学和视觉传感器部分,地面站软件QGC用于为无人机下达模式指令,以及实时显示无人机的二维轨迹、状态和指令信息;Pixhawk飞控板和仿真软件Gazebo通过USB线或者USB
‑
串口转接线连接。2.根据权利要求1所述的方法,其特征在于,所述的(1)中,对马尔可夫博弈中的状态空间、动作空间和即时回报函数进行如下设计:(1.1)状态空间设计:无人机的状态用位置、速度和姿态三个矢量描述;红方无人机处于完全优势的判定条件为:其中,R表示红机与蓝机在三维空间中的欧式距离;AA表示脱离角;ATA表示脱离角;状态向量使用红方无人机与蓝方无人机的相对态势信息来描述,如下:红方第i架无人机的观测状态o
i
={Δx
ij
,Δy
ij
,Δz
ij
,Δvx
ij
,Δvy
ij
,|AA|
ij
,|ATA|
ij
,Δx
ik
,Δy
ik
,Δz
ik
,Δvx
ik
,Δvy
ik
,Δψ
ik
|j=1,2,
…
,n,k=1,2,
…
,m且k≠i}其中,Δx
ij
,Δy
ij
,Δz
ij
,Δvx
ij
,Δvy
ij
,|AA|
ij
,|ATA|
ij
表示红方第i架无人机与蓝方第j架无人机在x,y,z轴三个方...
【专利技术属性】
技术研发人员:马耀飞,赵丽平,冯旭焘,龚光红,李妮,宋晓,王江云,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。