一种基于深度强化学习的无人机自主导航及避障方法技术

技术编号:39733587 阅读:7 留言:0更新日期:2023-12-17 23:36
本发明专利技术提供一种基于深度强化学习的无人机自主导航及避障方法,涉及无人机自主导航领域,所述方法以无人机的观测为输入,在

【技术实现步骤摘要】
一种基于深度强化学习的无人机自主导航及避障方法


[0001]本专利技术涉及无人机自主导航领域,特别涉及一种基于深度强化学习的无人机自主导航及避障方法


技术介绍

[0002]随着无人技术的快速发展,无人机的相关研究也逐渐变得热门

与载人飞行器相比,无人机
(Unmanned Aerial Vehicle

UAV)
由于其具有体积较小

造价成本低

零伤亡和灵活性高等特点而被广泛的运用在军事领域和民用领域

在军事领域,无人机在目标侦察

地形测绘

精准打击

通信干扰

通信转发以及其他战场态势感知场景下得到了广泛的应用;在民用领域,随着消费级无人机的普及,无人机的应用场景十分丰富,如灾难救援

航空拍摄

新闻报道

农业

植保和病虫害检测

电力巡检

快递运输等

无人机执行这些任务的基础,是其可以在复杂环境下,快速且安全地避开障碍物,抵达指定目标点,而这一过程的自主化,可以极大程度地降低成本,提高任务执行效率

[0003]现有技术中,许多方法使用传统的路径规划算法
(

A*
算法,
RRT
算法,人工势场法
)<br/>以及智能优化算法
(
如粒子群算法,蚁群算法,遗传算法
)
实现无人机的自主导航

但是这些非学习的算法在进行路径规划时需要全局信息和完善的动作执行机制,在给定的环境下规划可行的路径

难以处理动态变化的环境,存在着实时性差,在线导航和避障能力弱等弊端

此外,鉴于无人机导航的序列决策特点,一些方法将该问题建模为马尔可夫决策过程
(MDP)
,使用深度强化学习的方法对其进行研究

强化学习通过智能体对环境变化的感知,以奖励函数为指引进行决策,不需要全局的信息,可以使无人机在满足各种约束的前提下,自主完成导航和避障任务

而这些基于深度强化学习的无人机自主导航方法存在着灵活性较低,避障能力弱的问题


技术实现思路

[0004]有鉴于此,本专利技术实施例提供了一种基于深度强化学习的无人机自主导航及避障方法,以解决现有方法中无人机的灵活性较低,避障能力较弱的问题

该方法包括:
[0005]从无人机的各项检测指标中提取出观测特征并按照预设的步数
N
构造所述无人机的历史轨迹数据;
[0006]将所述历史轨迹数据输入至神经网络模型的
Actor
网络中,获得所述无人机的时序特征,其中,所述神经网络模型包括
Actor
网络
、Critic
网络和全连接网络;
[0007]将所述观测特征输入到决策偏移方法模块中,输出加权后的观测特征;
[0008]将所述加权后的观测特征和所述时序特征进行拼接后输入到所述全连接网络中,所述全连接网络输出所述无人机的动作向量;
[0009]将所述历史轨迹数据

当前观测特征和所述动作向量拼接后输入到所述
Critic
网络中,所述
Critic
网络输出对“观测特征
——
动作向量”对的评分;
[0010]所述
Actor
网络使用所述评分的相反数作为损失函数进行梯度下降,完成梯度下
降后的所述
Actor
网络输出三轴加速度,所述三轴加速度用于控制无人机的飞行

[0011]进一步的,所述历史轨迹数据包括所述无人机的坐标信息

所述无人机的三轴分速度

所述无人机的偏航角度

所述无人机与目标点的距离和距离传感器的返回值

[0012]进一步的,所述观测特征包括所述当前观测特征前
n
个时刻的观测特征及其对应动作向量和所述当前观测特征

[0013]进一步的,基于
TD3
算法对所述神经网络模型进行训练

[0014]进一步的,所述
Actor
网络的损失函数为所述
Critic
网络输出的所述评分,所述
Critic
网络的损失函数为
MSE。
[0015]进一步的,所述
Actor
网络和所述
Critic
网络均使用
Adam
优化器进行梯度下降训练

[0016]进一步的,所述从无人机的各项检测指标中提取出观测特征并按照预设的步数
N
构造所述无人机的历史轨迹数据,包括:
[0017]根据所述步数
N
的值选择所述历史轨迹数据的组织方式;
[0018]当前时间步数大于
N
时,选择距离所述当前时间步数最近
N
步的所述观测特征及其动作向量,根据对应的所述组织方式拼接成所述历史轨迹数据;
[0019]当前的时间步数小于
N
时,选择从所述无人机飞行开始到现在所有的所述观测特征及其动作向量,根据对应的所述组织方式拼接成所述历史轨迹数据

[0020]进一步的,所述将所述加权后的观测特征和所述时序特征进行拼接后输入到所述全连接网络中,包括:
[0021]将所述时序特征输入到
Attention
网络中,计算注意力权重;
[0022]将所述注意力权重与所述时序特征做
Hardmard
积,得到加权后的所述时序特征;
[0023]将所述加权后的观测特征和所述加权后的时序特征进行拼接后输入到所述全连接网络中

[0024]进一步的,所述将所述观测特征输入到决策偏移方法模块中,输出加权后的观测特征,包括:
[0025]输入所述当前观测特征到决策偏移方法模块中,并将所述当前观测特征分为
k

q

v
三个部分;
[0026]将
k
部分的所述当前观测特征与
mask
矩阵做
Hardmard
积,遮掩导航部分,获得遮掩后的矩阵;
[0027]将所述遮掩后的矩阵与
bias
矩阵相加,改变导航部分与避障部分的相对大小,得到
guide

[0028]将
q
部分的所述当前观测特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于深度强化学习的无人机自主导航及避障方法,其特征在于,所述方法包括:从无人机的各项检测指标中提取出观测特征并按照预设的步数
N
构造所述无人机的历史轨迹数据;将所述历史轨迹数据输入至神经网络模型的
Actor
网络中,获得所述无人机的时序特征,其中,所述神经网络模型包括
Actor
网络
、Critic
网络和全连接网络;将所述观测特征输入到决策偏移方法模块中,输出加权后的观测特征;将所述加权后的观测特征和所述时序特征进行拼接后输入到所述全连接网络中,所述全连接网络输出所述无人机的动作向量;将所述历史轨迹数据

当前观测特征和所述动作向量拼接后输入到所述
Critic
网络中,所述
Critic
网络输出对“观测特征
——
动作向量”对的评分;所述
Actor
网络使用所述评分的相反数作为损失函数进行梯度下降,完成梯度下降后的所述
Actor
网络输出三轴加速度,所述三轴加速度用于控制无人机的飞行
。2.
根据权利要求1所述的一种基于深度强化学习的无人机自主导航及避障方法,其特征在于,所述历史轨迹数据包括所述无人机的坐标信息

所述无人机的三轴分速度

所述无人机的偏航角度

所述无人机与目标点的距离和距离传感器的返回值
。3.
根据权利要求1所述的一种基于深度强化学习的无人机自主导航及避障方法,其特征在于,所述观测特征包括所述当前观测特征前
n
个时刻的观测特征及其对应动作向量和所述当前观测特征
。4.
根据权利要求1所述的一种基于深度强化学习的无人机自主导航及避障方法,其特征在于,基于
TD3
算法对所述神经网络模型进行训练
。5.
根据权利要求1所述的一种基于深度强化学习的无人机自主导航及避障方法,其特征在于,所述
Actor
网络的损失函数为所述
Critic
网络输出的所述评分,所述
Critic
网络的损失函数为
MSE。6.
根据权利要求1所述的一种基于深度强化学习的无人机自主导航及避障方法,其特征在于,所述
Actor
网络和所述
Critic
网络均使用
Adam
优化器进行梯度下降训练
。7.
根据权利要求1所述的一种基于深度强化学习的无人机自主导...

【专利技术属性】
技术研发人员:殷永峰王哲涛宿庆冉杨溢龙原仓周李海峰
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1