多无人机协同空战决策自主学习及半实物仿真验证方法技术

技术编号:32648758 阅读:60 留言:0更新日期:2022-03-12 18:36
本发明专利技术为一种多无人机协同空战决策自主学习及半实物仿真验证方法,属于智能空战决策技术领域。本发明专利技术包括:采用马尔可夫博弈过程对多无人机协同空战决策问题建模;改进QMIX框架建立多无人机协同空战决策网络模型,改进模型学习框架;采用Pixhawk飞控板、仿真软件Gazebo和地面站软件QGC建立半实物仿真验证环境。本发明专利技术显著提高多无人机空战决策学习的效率,能加快决策网络模型收敛速度,解决了多无人机协同空战策略的学习和验证问题,实现了多无人机协同空战策略的自学习、自改进和试验验证的整体方案。证的整体方案。证的整体方案。

【技术实现步骤摘要】
多无人机协同空战决策自主学习及半实物仿真验证方法


[0001]本专利技术属于智能空战决策
,具体涉及一种用于多无人机自主学习协同空战策略及半实物仿真验证方法。

技术介绍

[0002]多无人机的自主协同空战问题一直受到军事领域关注。传统的自主空战决策方法,包括博弈论方法、优化理论方法、知识决策方法等,都没能很好地解决多无人机环境下空战的协同决策问题。例如,博弈论方法和优化理论方法都对参与决策的个体数量敏感,其计算复杂度随决策数量的增加呈指数增加;知识决策方法则需要通过复杂的知识工程获取决策知识,而众所周知的是,这一过程通常需要耗费大量的人力、财力。
[0003]基于深度强化学习的自学习方法为解决多无人机协同空战决策问题提供了新思路。深度强化学习方法无需事先准备领域知识,可以通过与环境的交互从零开始自我学习,持续提高决策水平,甚至创造出全新的战术。训练好的网络模型在实际使用时具有较好的实时性。目前,面向多Agent(代理)学习的QMIX框架能用于学习多无人机协同空战策略,但仍有学习过程收敛慢(甚至不收敛)、学习鲁棒性差等问题。
[0004]此外,为了高效率地为多机协同空战学习提供大量数据,并在高可信度环境中验证学习结果,有必要建立高可信度的仿真验证平台。半实物仿真又称硬件在回路(Hardware In The Loop,HITL)仿真,是指将研究对象的部分硬件实物加入仿真系统开展仿真试验的技术,比数字仿真具备更高的准确性和真实性,但同时也比实物验证更加便利、消耗更少,是实验室研究与实际部署应用之间必须的一个环节。

技术实现思路

[0005]为了更高效地获取多无人机协同空战策略以验证策略,本专利技术提出一种多无人机协同空战决策自主学习及半实物仿真验证方法。本专利技术方法提出了一种新颖的多无人机协同空战决策自主学习方法,以实现显著改进QMIX框架学习效率,改进多无人机协同空战策略的自主学习问题,达到能更快获取多无人机协同空战决策的目的;同时,本专利技术还提出一种与之配套的半实物仿真验证环境设计方案,共同解决了多无人机协同空战策略的学习和验证问题。
[0006]本专利技术的一种多无人机协同空战决策自主学习及半实物仿真验证方法,包括:
[0007](1)建立多无人机协同空战决策系统模型;
[0008]将多无人机协同空战决策问题建模为马尔可夫博弈过程,设计马尔可夫博弈中的状态空间、动作空间和即时回报函数;
[0009](2)采用改进的QMIX框架建立多无人机协同空战决策网络模型,改进模型学习框架,对模型进行学习;
[0010]建立的多无人机协同空战决策网络模型包括:首先,为每架无人机建立单独的动作价值网络Q
i
(o
i
,a
i
),其中o
i
、a
i
分别表示无人机i的观测状态和动作。其次,为多无人机建
立价值混合网络,价值混合网络包含一个全局动作价值函数网络Q
total
(s,a)和一个超参数网络,s、a分别表示全局状态和多无人机联合动作,超参数网络则用于生成全局动作价值函数网络的参数。无人机个体的动作价值网络Q
i
(o
i
,a
i
)、全局动作价值函数网络Q
total
(s,a)以及超参数网络共同构成了学习框架的当前网络。
[0011]模型学习框架中,将当前网络复制一份作为学习框架的目标网络,用于计算损失函数。在无人机的动作选择模块中,使用ε

greedy策略设置无人机的动作选择策略,同时加入动作掩码机制防止无人机选择到不合理的机动动作。
[0012]在设置动作选择策略时,除了随机策略、强化学习网络之外,加入“Min

Max策略”作为“教师”教导无人机在巨大状态空间中如何决策,以获得最大回报,加快学习速度。在学习时,产生0

1之间的随机数p,当p≤ε/2时,调用Min

Max策略;当ε/2<p≤ε时,调用随机策略;当ε<p<1时,调用多无人机协同空战策略决策模型;超参数ε的值域为[0,1),随仿真轮次的增加而逐渐减小。
[0013]基于上述措施,在学习前期,无人机能快速找到合理的行动策略;在学习后期,无人机主要使用学习到的多机空战决策网络模型,而不再依赖“Min

Max策略”教导。
[0014](3)建立半实物仿真验证环境;
[0015]半实物仿真验证环境主要包括Pixhawk飞控板、仿真软件Gazebo和地面站软件QGC等。本专利技术以六自由度四旋翼无人机为对象,由Pixhawk飞控板完成对无人机的飞行控制,在仿真软件Gazebo中构建无人机数字模型的动力学和视觉传感器部分,并运行在桌面计算机上。Pixhawk飞控板和仿真软件Gazebo通过USB线或者USB

串口转接线连接。地面站软件QGC用于为无人机下达模式指令,以及实时显示无人机的二维轨迹、状态和指令信息等。
[0016]在半实物仿真验证时,无人机启用Offboard模式,接收空战仿真进程下发的指令,包括多无人机协同空战策略决策模型决策的无人机机动动作以及无人机起飞、返航指令等。地面站软件QGC中,空战仿真进程作为一个独立的ROS节点运行,支持ROS通信协议,Pixhawk飞控板支持MAVLink通信协议,Pixhawk飞控板与ROS节点之间通过MAVROS通信节点实现通信。
[0017]相对于现有技术,本专利技术的优点和积极效果在于:
[0018](1)本专利技术方法提供了实现了多无人机协同空战策略的自学习、自改进和试验验证的整体方法,解决了多无人机协同空战策略的学习和验证问题;
[0019](2)本专利技术方法改进了多无人机协同空战学习方法,显著提高了多无人机空战决策学习效率,收敛速度快,将能更快获得协同空战策略;
[0020](3)本专利技术方法利用Pixhawk飞控板实物和相关多种软件,通过集成设计,建立了一个可信度高、扩展性好的学习训练和仿真验证环境,并可推广用于一般性的多Agent协同任务决策学习的仿真验证。
附图说明
[0021]图1是本专利技术的多无人机协同空战策略学习和半实物仿真方法的整体实现示意图;
[0022]图2是本专利技术实施例为四旋翼无人机空战建立的7种机动动作示意图;
[0023]图3是本专利技术改进的多无人机协同空战决策网络模型的学习框架示意图;
[0024]图4是本专利技术提出的通过“课程学习”加快学习速度方式的示意图;
[0025]图5是本专利技术提出的多无人机协同空战半实物仿真验证环境的组成结构图;
[0026]图6是本专利技术实施例在半实物仿真环境中对协同空战决策模型仿真验证的示意图;
[0027]图7是在训练过程中每隔100轮对本专利技术决策网络模型测试交战100局红方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多无人机协同空战决策自主学习及半实物仿真验证方法,其特征在于,包括:(1)将多无人机协同空战决策问题建模为马尔可夫博弈过程,确定马尔可夫博弈中的状态空间、动作空间和即时回报函数;(2)采用QMIX框架建立多无人机协同空战决策网络模型,并改进模型学习框架;建立的多无人机协同空战决策网络模型包括:首先,为每架无人机建立单独的动作价值网络Q
i
(o
i
,a
i
),其中o
i
、a
i
分别表示无人机i的观测状态和动作;其次,为多无人机建立价值混合网络,价值混合网络包含一个全局动作价值函数网络Q
total
(s,a)和一个超参数网络,其中s、a分别表示全局状态和多无人机联合动作,超参数网络用于生成全局动作价值函数网络的参数;无人机个体的动作价值网络Q
i
(o
i
,a
i
)、全局动作价值函数网络Q
total
(s,a)以及超参数网络共同构成了学习框架的当前网络;模型学习框架中,将当前网络复制一份作为学习框架的目标网络,用于计算损失函数;在无人机的动作选择模块中,使用ε

greedy策略设计动作选择策略,加入Min

Max策略,同时加入动作掩码机制;在前期学习中,利用Min

Max策略教导无人机如何决策,以获取最大回报;通过动作掩码机制防止无人机选择到不合理的机动动作;(3)建立半实物仿真验证环境,对多无人机协同空战策略决策模型进行仿真验证;所述半实物仿真验证环境包括Pixhawk飞控板、仿真软件Gazebo和地面站软件QGC;Pixhawk飞控板用于控制无人机飞行,仿真软件Gazebo用于建立无人机数字模型的动力学和视觉传感器部分,地面站软件QGC用于为无人机下达模式指令,以及实时显示无人机的二维轨迹、状态和指令信息;Pixhawk飞控板和仿真软件Gazebo通过USB线或者USB

串口转接线连接。2.根据权利要求1所述的方法,其特征在于,所述的(1)中,对马尔可夫博弈中的状态空间、动作空间和即时回报函数进行如下设计:(1.1)状态空间设计:无人机的状态用位置、速度和姿态三个矢量描述;红方无人机处于完全优势的判定条件为:其中,R表示红机与蓝机在三维空间中的欧式距离;AA表示脱离角;ATA表示脱离角;状态向量使用红方无人机与蓝方无人机的相对态势信息来描述,如下:红方第i架无人机的观测状态o
i
={Δx
ij
,Δy
ij
,Δz
ij
,Δvx
ij
,Δvy
ij
,|AA|
ij
,|ATA|
ij
,Δx
ik
,Δy
ik
,Δz
ik
,Δvx
ik
,Δvy
ik
,Δψ
ik
|j=1,2,

,n,k=1,2,

,m且k≠i}其中,Δx
ij
,Δy
ij
,Δz
ij
,Δvx
ij
,Δvy
ij
,|AA|
ij
,|ATA|
ij
表示红方第i架无人机与蓝方第j架无人机在x,y,z轴三个方...

【专利技术属性】
技术研发人员:马耀飞赵丽平冯旭焘龚光红李妮宋晓王江云
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1