基于深度强化学习的四旋翼无人机自主导航方法与系统技术方案

技术编号:33132932 阅读:84 留言:0更新日期:2022-04-17 00:53
本发明专利技术公开了一种基于深度强化学习的四旋翼无人机自主导航方法与系统,涉及四旋翼无人机和深度强化学习领域,方法包括以下步骤:步骤1、构建DDPG网络模型,并使用2D

【技术实现步骤摘要】
基于深度强化学习的四旋翼无人机自主导航方法与系统


[0001]本专利技术涉及四旋翼无人机和深度强化学习领域,尤其涉及一种基于深度强化学习的四旋翼无人机自主导航方法与系统。

技术介绍

[0002]近年来,随着传感器设备和MEMS(Micro Electro Mechanical System,微机电系统)芯片的发展,四旋翼无人机已广泛应用于航拍、搜索和救援等领域。为了能够在未知杂乱的环境中完成任务,无人机的自主导航能力至关重要。
[0003]无人机自主导航系统主要由状态估计、环境感知、运动规划、动态控制这几个模块组成。状态估计和环境感知统称为SLAM(Simultaneous Localization And Mapping,同步定位与建图)系统,即利用无人机搭载的视觉传感器或者激光雷达实现自身的定位和对地图的构建。运动规划模块则根据SLAM模块得到的无人机位姿和地图信息,规划出一条可执行的轨迹,发送给底层的控制模块。控制模块通常是由飞控设备完成,实现无人机对期望轨迹的精准追踪。随着科学技术的发展,状态估计、环境感知、动态控制都具有了很高本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的四旋翼无人机自主导航方法,其特征在于,所述方法包括以下步骤:步骤1、构建适用于四旋翼无人机自主导航的DDPG网络模型,并使用2D

GA算法来训练所述DDPG网络模型;步骤2、获得所述四旋翼无人机的位姿并建立ESDF地图;步骤3、在所述ESDF地图上,先用路径搜索算法得到离散路径点序列;步骤4、将由所述位姿组成的位姿向量、所述ESDF地图组成的ESDF地图矩阵、所述离散路径点序列组成的离散路径点向量并行输入特征提取网络,并将所述特征提取网络提取的若干特征拼接成一个组合特征输入到所述DDPG网络模型中,输出动作a给控制模块;步骤5、所述控制模块将所述动作a转化成所述四旋翼无人机的四个电机的转速并执行;步骤6、在所述四旋翼无人机执行完所述动作a之后,根据奖励函数计算奖励r,并判断是否到达目的地;如果没有到达所述目的地,则重复所述步骤2到所述步骤6,直到到达所述目的地。2.如权利要求1所述的基于深度强化学习的四旋翼无人机自主导航方法,其特征在于,所述步骤1包括以下步骤:步骤1.1、随机初始化所述DDPG网络模型的Actor网络π和Critic网络Q,同时,初始化Actor目标网络π

和Critic目标网络Q

,权重分别与所述Actor网络π和所述Critic网络Q相同,并初始化经验回放池;步骤1.2、初始化所述四旋翼无人机的状态s,所述状态s包括初始位姿向量、初始ESDF地图矩阵、初始离散路径点向量,并使用随机策略输出所述动作a;在所述四旋翼无人机执行完所述动作a之后,使用所述奖励函数得到执行完所述动作a的所述奖励r以及下一时刻所述四旋翼无人机的状态s

,其中,所述初始ESDF地图矩阵会随着所述四旋翼无人机的飞行不断更新;将序列(s,a,r,s

)存入所述经验回放池中;重复直到所述经验回放池中达到预定数量的所述(s,a,r,s

)序列;步骤1.3、从所述经验回放池中取出m个所述(s,a,r,s

)序列作为同一批进行训练,使用梯度下降法更新所述Actor网络π和所述Critic网络Q的权重;步骤1.4、在一批训练结束后,使用所述2D

GA算法对多线程并行执行的所述Actor网络π和所述Critic网络Q的权重进行保留和剔除,加快训练速度;步骤1.5、对所述Actor目标网络π

和所述Critic目标网络Q

的权重进行软更新:θ
μ

=τθ
μ
+(1

τ)θ
μ

θ
ω

=τθ
ω
+(1

τ)θ
ω

重复所述步骤1.3到1.5,直到训练结果达到预期要求;其中,τ表示用来控制权重软更新速度的参数,θ
μ
表示所述Actor网络π的网络权重,θ
μ

表示所述Actor目标网络π

的网络权重;θ
ω
表示所述Critic网络Q的网络权重,θ
ω

表示所述Critic目标网络Q

的网络权重。3.如权利要求2所述的基于深度强化学习的四旋翼无人机自主导航方法,其特征在于,在开始所述步骤1之前将预先设计状态空间、动作空间和所述奖励函数;所述状态空间包括无人机自身状态、环境信息以及前端路径搜索得到的离散路径点,
将所述无人机自身状态、所述环境信息和所述前端路径搜索得到的离散路径点并行输入各自的特征网络进行处理,并拼接成一个组合特征输入到所述DDPG网络模型。4.如权利要求3所述的基于深度强化学习的四旋翼无人机自主导航方法,其特征在于,所述动作空间为四个连续变量:四旋翼提供的总升力F、三个姿态角的角加速度ω
x
、ω
y
、ω
z
;根据所述姿态的所述角加速度和欧拉方程可以求出所述四旋翼无人机三个轴的转矩M1、M2、M3,再加上所述总升力F计算出所述四旋翼无人机四个电机的转速f1、f2、f3、f4。5.如权利要求3所述的基于深度强化学习的四旋翼无人机自主导航方法,其特征在于,所述奖励函数的表达式为:R=r
s
+r
c
+r
d
+r
t
+r
f
+r
g
ꢀꢀꢀꢀ
(1)其中,r
s
是光滑性奖励,通过最小化轨迹的jerk来实现;jerk是加速度的导数,是所述四旋翼无人机的角速度,r
s
的表达式为:其中,a
t
表示所述四旋翼无人机在t时刻的加速度;r
c
是碰撞惩罚,通过所述ESDF地图来构建:d是从所述ESDF地图中得到的所述四旋翼无人机在当前位置与最近障碍物的距离,d0是安全距离阈值;r
d
是动力学可行性奖励,对所述四旋翼无人机而言,动力学可行是要满足最大速度和加速度约束;r
t
是鼓励所述四旋翼无人机尽快到达目...

【专利技术属性】
技术研发人员:朱光耀王成光杨根科褚健王宏武
申请(专利权)人:上海交通大学宁波人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1