一种基于深度强化学习的多无人机智能导航方法技术

技术编号:37853401 阅读:16 留言:0更新日期:2023-06-14 22:45
本发明专利技术公开了一种基于深度强化学习的多无人机智能导航方法,包括以下步骤;(1)在三维仿真环境中建立多架四旋翼无人机模型并生成包含障碍物和目标点的环境:(2)设置无人机的多维度特征融合的全局观测信息、局部观测信息和离散动作空间;(3)基于欧式距离的奖励函数,定义无人机状态的价值评价指标;(4)设计策略网络和状态价值网络;(5)设计临时经验池存储交互信息;(6)基于OA

【技术实现步骤摘要】
一种基于深度强化学习的多无人机智能导航方法


[0001]本专利技术属于无人机智能导航
,具体涉及一种基于深度强化学习的多无人机智能导航方法。

技术介绍

[0002]无人机不管在军事领域还是民用领域都有很多的应用,但目前大多数场景下还是人为控制其飞行,这种方式在飞行过程中很容易因为操作不当导致无人机避障失败进而坠毁。传统的无人机避障方法如可视图法、粒子群优化算法根据不同任务建模过程复杂并且应用在三维空间计算量大,十分耗时。在实际飞行过程中,往往需要在未知环境中实时避障。
[0003]单无人机可解决的任务的复杂度和规模都远远小于多无人机协同方式,多无人机协同完成任务已是大势所趋,但多无人机比单无人机更难以联合操控,多无人机协同不仅要使得无人机避开障碍物,也要防止无人机之间发生碰撞。
[0004]强化学习是一种让机器人不断与环境交互,根据得到的奖励改进机器人在特定状态下所作动作的方法,经过不断探索环境,最终可以得到每个状态下的最优动作,从而实现特定的任务。强化学习在无人机避障领域已经有一定的研究,但目前研究无人机仿真环境简单,如本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的多无人机智能导航方法,其特征在于,包括以下步骤;(1)在三维仿真环境中建立多架四旋翼无人机模型并生成包含障碍物和目标点的环境:(2)设置无人机的多维度特征融合的全局观测信息、局部观测信息和离散动作空间;(3)基于欧式距离的奖励函数,定义无人机状态的价值评价指标;(4)设计策略网络和状态价值网络,策略网络根据步骤(2)中无人机的局部观测信息决策出当前执行的动作,状态价值网络根据步骤(2)中全局观测信息评价出当前无人机执行的动作的分数;(5)设计临时经验池存储交互信息,用于存储无人机和环境交互产生的样本序列,提供给步骤(4)中策略网络和状态价值网络训练;(6)基于OA

MAPPO算法进行深度强化学习网络训练,按照算法设定的流程采样步骤(5)中产生的样本,用于步骤(4)中设计的网络的训练;(7)实现多无人机智能导航。2.根据权利要求1所述的一种基于深度强化学习的多无人机智能导航方法,其特征在于,所述步骤(1)中障碍物为同一颜色的长方体,环境有边界,ws
min
=(x
min
,y
min
,z
min
)表示每个无人机能到的最小边界,ws
max
=(x
max
,y
max
,z
max
)表示每个无人机能到的最大边界,边界与障碍物用不同颜色的墙体区分。3.根据权利要求1所述的一种基于深度强化学习的多无人机智能导航方法,其特征在于,所述无人机上安装有机载前置摄像头和激光雷达,激光雷达感知无人机和障碍物的一维距离信息,前置摄像头感知障碍物的二维轮廓信息,训练开始前需要初始化每个无人机机载前置摄像头和激光雷达,用于保证正确接收到数据,无人机的初始位置位于环境左下角,无人机初始状态为着陆状态。4.根据权利要求1所述的一种基于深度强化学习的多无人机智能导航方法,其特征在于,所述步骤(2)中,对于一号无人机,建立其局部观测信息o1如下:o1=(P
x1
,P
y1
,P
z1
,O
w1
,O
x1
,O
y1
,O
z1
,L1,Cam1,P
x2
,P
y2
,P
z2
,P
x3
,P
y3
,P
z3
)其中包括一号无人机位置信息和二号无人机的位置信息以及三号无人机的位置信息所有无人机的位置信息需满足ws
min
≤(P
xi
,P
yi
,P
zi
)≤ws
max i∈{1,2,3}保证无人机在有限空间内飞行;无人机i的四元数O
wi
、O
xi
、O
yi
、O
zi
用来计算无人机当前飞行状态的俯仰角pitch和翻滚角roll:pitch=asin[2(O
w
O
y

O
z
O
x
)]激光雷达传感器的读数L
i
感应无人机i前方与障碍物的距离,最小值为0;当检测不到前方有障碍物时赋值5,前置相机接收到传来的RGB三通道图像数据后,输入到卷积神经网络中进行特征提取,全局观测信息为所有无人机部分观测信息除去重复信息的综合;
建立的动作空间A为离散的动作空间,分别为前进、后退,左转、右转、升高、降落,通过给控制无人机飞行的话题发送改变线速度和角速度的指令来完成。5.根据权利要求1所述的一种基于深度强化学习的多无人机智能导航方法,其特征在于,所述步骤(3)中,基于欧式距离的奖励函数的表达式为:r=r
p
+r
s
+r
f
+r
d
r表示总奖励,其中r
p
为所有无人机正在进行环境探索时执行一个动作的连续奖励的总和,式中描述了三架无人机的累加结果,定义回合结束标志done,值为True表示当前训练回合结束,值为False表示未结束,done
i
表示第i个无人机的回合结束标志,值为True表示结束,值为False表示未结束,设定若有一个无人机由于碰撞或其他情况导致回合结束,则整个飞行回合都结束,保证任务的完整性,因此回合结束标志done可由下式定义:done=done1∪done2∪done3当回合结束标志位done为False时,计算r
p
作为当前奖励,step为训练一轮走的当前步数,步数越多奖励r
p
越小,目标点的位置为G=(g
x
,g
y
,g
z
),无人机i的当前位置为X
i
=(cur
xi
,cur
yi
,cur
zi
),无人机i上一个状态的位置为pred
i
=(pred
xi
,pred
yi
,pred
zi
),dif
i
为无人机i当前位置与上一个动作的位置相对于目标点的偏移量,等于当前距目标点的距离减去上一个动作距目标点的距离,这里的距离指欧式距离;...

【专利技术属性】
技术研发人员:李瑜张文博姜超颖龙璐岚李林臧博
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1