一种基于DQN的多无人机协同区域监视的航路规划方法技术

技术编号:19819982 阅读:30 留言:0更新日期:2018-12-19 14:03
本发明专利技术属于多无人机区域监视航路规划领域,公开了一种基于DQN的多无人机区域监视的航路规划方法,包括:设定无人机群的目标监视区域,包含N架无人机,每架无人机上设置一个机载雷达,每架无人机匀速飞行;对无人机群的航路规划进行建模;确定无人机的状态与动作;建立深度神经网络;得到神经网络的目标值;N架无人机的航路进行规划,得到无人机群飞行过程中的有限个训练样本,通过样本训练深度神经网络,训练好的神经网络可以预测到没有看过的样本。当输入无人机群的当前状态时,通过神经网络就可以知道采取哪一个动作飞行时下一步的监视覆盖率就最大。以此规划出的航路就能够使得无人机群有效地实时覆盖监视区域。

【技术实现步骤摘要】
一种基于DQN的多无人机协同区域监视的航路规划方法
本专利技术属于无人机区域监视航路规划领域,尤其涉及一种基于DQN(DeepQ-Network)的多无人机协同区域监视的航路规划方法,适用于无人机群对目标区域进行实时最大覆盖的持续监视问题。
技术介绍
无人机(UnmannedAerialVehicle,UAV),是指不需要飞行员驾驶,利用无线电遥控设备和自备的程序控制装置操纵的飞行器。凭借其成本低、机动性强、零伤亡率等特点,在军事领域及民用领域,都发挥着不可替代的作用。在无人机可以完成的各种任务中,区域监视是目前无人机系统的一项非常重要的任务,尤其是在承担边境防空警戒任务时,需要监视的区域通常较为广阔,导致单架无人机对目标区域进行监视就越来越困难,常常无法完成所有的空中警戒任务。为了实时、最大化地监视目标区域,需要多架无人机协同完成。所以如何对多架无人机进行航路规划,解决多无人机协同飞行问题,以完成对指定目标区域的有效监视覆盖,是需要认真研究的重要问题。目前无人机的航路规划算法研究大多是以避开防空导弹等障碍物到达飞行目标点为目的的,主要针对的是无人机和巡航导弹,通过相关的航路规划算法本文档来自技高网...

【技术保护点】
1.一种基于DQN的多无人机协同区域监视的航路规划方法,其特征在于,所述方法包括如下步骤:步骤1,设定无人机群的监视区域,所述无人机群包含N架无人机,每架无人机上设置一个机载雷达,N架无人机在同一高度匀速飞行,并设定每架无人机的监视半径Rmax;步骤2,确定每架无人机的最大速度偏转角θmax,以及每架无人机的位置和速度更新表达式;步骤3,建立深度神经网络包含N个全连接神经网络,一个全连接神经网络对应一架无人机的航路规划;步骤4,确定每个全连接神经网络的目标值;步骤5,训练每个全连接神经网络的网络参数,得到每个训练后的神经网络模型,从而根据所述每个训练后的神经网络模型确定对应无人机的航路规划结果...

【技术特征摘要】
1.一种基于DQN的多无人机协同区域监视的航路规划方法,其特征在于,所述方法包括如下步骤:步骤1,设定无人机群的监视区域,所述无人机群包含N架无人机,每架无人机上设置一个机载雷达,N架无人机在同一高度匀速飞行,并设定每架无人机的监视半径Rmax;步骤2,确定每架无人机的最大速度偏转角θmax,以及每架无人机的位置和速度更新表达式;步骤3,建立深度神经网络包含N个全连接神经网络,一个全连接神经网络对应一架无人机的航路规划;步骤4,确定每个全连接神经网络的目标值;步骤5,训练每个全连接神经网络的网络参数,得到每个训练后的神经网络模型,从而根据所述每个训练后的神经网络模型确定对应无人机的航路规划结果。2.根据权利要求1所述的一种基于DQN的多无人机协同区域监视的航路规划方法,其特征在于,步骤1中设定每架无人机的监视半径Rmax具体为:每架无人机的监视半径Rmax为机载雷达的最大作用距离:其中,Pt表示机载雷达系统峰值功率,G表示机载雷达天线增益,λ表示机载雷达电磁波波长,σ表示目标散射截面积,k表示波尔兹曼常数,T0表示标准室温,B表示机载雷达接收机带宽,F表示机载雷达噪声系数,L表示机载雷达自身损耗,(S/N)omin表示机载雷达的最小可检测门限,S为信号功率,N为噪声功率。3.根据权利要求1所述的一种基于DQN的多无人机协同区域监视的航路规划方法,其特征在于,步骤2中确定每架无人机的位置和速度更新表达式,具体为:(2a)确定无人机群的状态:第n架无人机的状态包含当前时刻该无人机所在节点的位置坐标(xn,yn)和该无人机的飞行速度方向采用行向量表示第n架无人机的状态,则无人机群的状态表示为:(2b)确定无人机群中每架无人机的动作:每架无人机在下一时刻的可行位置为一个光滑圆弧,在所述光滑圆弧上平均取M个节点作为该无人机在下一时刻采取的M个动作,且M为奇数;(2c)确定第n架无人机的位置和速度更新公式:xnm=xn+v·Δt·cos(αnm+vn)ynm=yn+v·Δt·sin(αnm+vn)vnm=vn+θnm其中,xnm和ynm分别为第n架无人机采取第m个动作飞达下一节点的横坐标和纵坐标;xn和yn分别为第n架无人机当前时刻所在节点的横坐标和纵坐标;v为无人机的飞行速度;Δt为固定的时间间隔;αnm为第n架无人机采取第m个动作飞达下一节点相对于该无人机当前节点的位置偏转角;vnm为第n架无人机采取第m个动作飞达下一节点处的飞行速度角度;vn为第n架无人机在当前节点处的飞行速度角度;θnm为第n架无人机采取第m个动作飞达下一节点速度变化的角度,n=1,...,N,m=1,...,M。4.根据权利要求1所述的一种基于DQN的多无人机协同区域监视的航路规划方法,其特征在于,步骤3具体包括如下子步骤:(3a)建立N个全连接神经网络,每个全连接神经网络的输入层包含3×N个神经元,用于输入N架无人机的当前状态;每个全连接神经网络的输出层包含M个神经元,用于输出对应无人机的M个动作估值;且每个全连接神经网络还包含两个隐含层;(3b)每个全连接神经网络的网络参数为w,b,其中,w表示每个全连接神经网络的权重,b表示每个全连接神经网络的偏差项,设定每个全连接神经网络的初始网络参数w,b分别服从参数为μ(0,0.1),μ(0.05,0.01)的正态分布,且设定两个隐含层的激活函数为ReLU激活函数;(3c)在第二个隐藏层之后设置随机失活率为0.5。5.根据权利要求4所述的一种基于DQN的多无人机协同区域监视的航路规划方法,其特征在于,步骤4具体为:(4a)设在t时刻,某一无人机采取动作at飞往下一节点,则无人机群从状态st转移到状态st+1时,所获得的奖赏值记为rt+1,则该无人机在无人机群状态为st时采取动作at的状态-动作Q值Q(st,at)为:将所述无人机在无人机群状态为st时采取动作at的状态-动作Q值Q(st,at)作为该无人机在无人机群状态为st时采取动作at的目标值;at为M个动作中的任意一个动作;式中,Q(st,at)表示某一无人机在无人机群状态为st时采取动作at的状态-动作Q值,Q(st+1,a)表示某一无人机在无人机群状态为st+1时采取动作a的状态-动作Q值,a∈A,A为某一无人机在t时刻采取的动作集合,rt+1表示无人机群到达状态st+1时该无人机对应的全连接神经网络所得到的奖赏函数,γ为折扣因子,表示无人机远视的程度,γ∈[0,1);(4b)确定全连接神经网络的奖赏函数r=B*(rate-0.85);其中,rate为无人机群的总覆盖率,B为奖赏系数;无人机群的总覆盖率rate的确定过程为:将无人机群的监视区域均匀划分为二维网格,然后将被无人机的机载雷达监视到的网格标记为1,没被监视到的网格标记为0,其中,如果监视到的网格有重叠,则这个重叠网格一直标记为1;进而得到无人机群的监视区域内所有被标记为1的网格个数,将所有被标记为1的网格个数与二维网格的总个数的比值记为无人机群的总覆盖率rate;(4c)建立N个Q目标神经网络,所述N个Q目标神经网络与N个全连接神经网络一一对应,初始时刻时,N个Q目标神经网络与N个全连接神经网络的网络结构及网络参数分别对应相同;其中,每个Q目标神经网络用于得到对应无人机的Q(st+...

【专利技术属性】
技术研发人员:王彤李艳庆张曙光
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1