一种基于迁移学习改进的PMADDPG多无人机任务决策方法技术

技术编号:26171792 阅读:92 留言:0更新日期:2020-10-31 13:45
本发明专利技术公开了一种基于迁移学习改进的PMADDPG多无人机任务决策方法。首先在多无人机实际作战环境背景下,针对环境中的防空导弹、雷达等威胁进行合理的数学建模,然后创建多个不同的二维作战环境模型,并且设计约束条件,依次对多个作战环境进行学习和训练,进而得到最终的多无人机任务分配模型。本发明专利技术方法克服了已有技术中只能在已知或静态作战环境下进行任务决策的缺陷,在未知的作战环境下,也可以能够高效的进行决策,实现无人机的任务,大大保障了无人机群在未知作战环境中的生存能力。

【技术实现步骤摘要】
一种基于迁移学习改进的PMADDPG多无人机任务决策方法
本专利技术属于飞行控制领域,具体涉及一种多无人机任务决策的方法。
技术介绍
对于各国军方来说,无人机将会成为未来战场必不可少的武器之一。无人机很可能成为多个作战平台的攻击和反击对象,成为最普遍和最致命的空战“利剑”,多无人机的协同作战方式将会成为未来的主流发展趋势。目前,国内外军事院校及学者对多无人机任务决策问题的研究十分关注,成果也有很多。但是,多无人机任务决策的研究仍存在不少问题。比如在多无人机协同搜索、跟踪、任务分配、航迹规划、编队控制等问题中,一方面,大多研究的无人机模型建立基本都未考虑实际战场需求,仅仅在静态的无人机任务背景下进行单无人机的研究,并且使用的优化算法还是一些传统的优化算法。这些传统算法大多都基于单目标函数的优化问题而提出,并且大部分都是基于理论研究,适用于静态作战环境,未考虑实际空战中的各种动态变化和约束条件。另一方面,虽然有些无人机研究成果引入了深度强化学习的方法,但是,现有的深度强化学习算法在处理多无人机任务决策相关问题时耗时较长,对于实时性的需求还有待提高。本文档来自技高网...

【技术保护点】
1.一种基于迁移学习改进的PMADDPG多无人机任务决策方法,其特征在于,包括以下步骤:/n步骤1:建立雷达威胁模型、导弹威胁模型和转弯半径约束模型/n建立雷达威胁模型为:/n

【技术特征摘要】
1.一种基于迁移学习改进的PMADDPG多无人机任务决策方法,其特征在于,包括以下步骤:
步骤1:建立雷达威胁模型、导弹威胁模型和转弯半径约束模型
建立雷达威胁模型为:



其中,Rmax为雷达在水平方向上最远的探测距离,UR是无人机当前位置与雷达位置的距离;
建立导弹威胁模型为:



其中,UM是无人机当前位置与导弹位置的距离,dMmax为导弹所能攻击的最远距离,dMmin为导弹的不可逃逸距离,一旦无人机与导弹的距离小于dMmin,则无人机一定会被击中;
建立转弯半径约束模型为:
Ruav≥Rmin(3)
其中,Rmin为无人机的最小转弯半径,Ruav为无人机的实际转弯半径;
步骤2:设定作战环境中存在若干个威胁区、若干个目标区域、若干架无人机;随机选择一个或多个威胁区,随机选择一个或多个目标区域,随机选择一架或多架无人机,将选择的威胁区、目标区域、无人机进行组合,构建一个无人机作战环境;重复上述随机选择和组合过程,构建G个无人机作战环境;
步骤3:设定作战环境中共有k架无人机、m个威胁区和k个目标区域;k架无人机分别为:UAV1,UAV2,...,UAVk;定义第i架无人机的状态Suavi包含当前时刻的速度矢量(vuavi,x,vuavi,y)和在作战环境中的坐标位置(puavi,x,puavi,y);定义环境状态Senv包含m个威胁区的坐标位置及威胁半径和k个目标区域的坐标位置,其中第i个威胁区的坐标位置和威胁半径分别表示为(Wi,x,Wi,y)和ri,y,第i个目标区域的坐标位置表示为(Mi,x,Mi,y);k架无人机从起点出发,绕过作战环境中的威胁区,最终要分别到达k个目标区域;
步骤3-1:建立无人机的状态空间
每一架无人机的状态包括了自身的状态、其它无人机的状态和环境状态,无人机UAV1在t时刻的状态定义为:
St,uav1=(Suav1,Suav2,...,Suavk,Senv)(4)
进一步第i架无人机在t时刻的状态表示为:



无人机在各个时刻的状态构成无人机的状态空间;
步骤3-2:建立无人机的动作空间
t时刻将无人机的状态输入无人机的控制网络,控制网络输出无人机动作策略,表示为无人机瞬时速度(vx,vy),vx表示无人机沿x轴方向的速度,vy表示无人机沿y轴方向的速度;瞬时速度的大小限制在指定范围内,若超过指定范围的上限将瞬时速度设定为上限,若低于指定范围的下限将瞬时速度设定为下限;瞬时速度的方向受到无人机的转弯半径约束模型的约束,如果不符合转弯半径约束模型,则控制网络重新输出瞬时速度;
无人机经过Δt时刻后的位置更新为



式中,和分别表示无人机在t时刻的位置;
无人机在不同时刻的动作策略构成了二维向量表示的无人机动作空间;
步骤3-3:建立无人机奖励函数
定义威胁奖励函数Rf,如下式:



式中,DW为无人机与威胁区的距离;
设定碰撞奖励函数Rp,如下式:



式中,Ddij为第i架无人机与第j架无人机之间的距离,Dd为无人机之间的最小安全距离;
设定距离奖励函数Rr,如下式:



式中,dmin是每个目标区域距最近无人机的距离之和,(puavi,x,puavi,y)表示第i架无人机在作战环境中的坐标位置,(Mj,x,Mj,y)表示第j个目标区域在作战环境中的坐标位置;
最终无人机奖励函数设定为:
Ri=Rf+Rp+Rr(10)
式中,Ri表示第i架无人机的奖励值;
步骤4:构建与训练采用迁移学习的多无人机任务决策网络模型;
步骤4-1:加载步骤2中创建的任一无人机作战环境;
步骤4-2:无人机随机产生动作,无人机与威胁区、无人机与目标区域及无人机之间的相对位置发生变化,从而无人机作战环境发生改变;
步骤4-3:根据...

【专利技术属性】
技术研发人员:李波甘志刚梁诗阳高晓光万开方高佩忻
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1