当前位置: 首页 > 专利查询>中山大学专利>正文

基于深度强化学习的自主导航无人机功率优化方法技术

技术编号:28219947 阅读:28 留言:0更新日期:2021-04-28 09:40
本发明专利技术公开了一种在无人机驾驶应用中基于深度强化学习的功率优化方法,通过结合无人机所处环境状态特征,对卷积神经网络计算规模进行动态配置,达到低延时和高能效的自主导航任务执行。该发明专利技术首先设计并训练了能够接收不同大小输入层的深度神经网络,根据前置摄像头的图像输入计算出无人机的控制方向与速度;然后利用强化学习,根据当前时间块的环境复杂度、障碍混杂因子和历史动作向量,推断出适应于当前环境的计算功耗最优神经网络配置,以此提高无人机设备计算能耗的利用率,延长自主导航无人机的续航时间。航无人机的续航时间。航无人机的续航时间。

【技术实现步骤摘要】
基于深度强化学习的自主导航无人机功率优化方法


[0001]本专利技术涉及边缘计算、深度学习、强化学习以及自动驾驶
,更具体地,涉及一种基于深度强化学习的自主导航无人机功率优化方法。

技术介绍

[0002]近年来,无人机的自主导航能力受到了机器人界的广泛关注,自主导航无人机的易部署、敏捷性和机动性等优点,让它在许多领域中得到了广泛的应用,例如消防检测、精准农业、快递配送和安全巡视等。传统实现自导航的方法是使用SLAM算法,它包括对给定地图的感知和对控制命令的计算两个过程。但是,将感知过程与控制过程分离,不仅阻碍了感知过程与控制过程之间的正反馈,还会产生视觉混叠和动态场景的变化,这可能会导致感知过程系统出现不可预测的错误。
[0003]深度神经网络为感知和控制的结合提供了一种可靠的方法,并且在实际应用中取得了不错的效果。这种基于监督学习的方法可以有效地从人的操作轨迹中学习,模拟出人的操作过程,这使得无人机即使没有GPS信号也能成功地在不同的场景中导航。然而,在学习通用化策略方面取得成功的同时,深度神经网络也具有较高的内存和计算能量需求本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的自主导航无人机功率优化方法,其特征在于,包括以下步骤:S1.自主导航卷积神经网络的搭建与训练:将残差块与空间域金字塔池化层相结合,构建能够进行动态配置输入层大小的卷积神经网络;通过开源无人机仿真平台,采集用于训练自主导航任务的深度卷积模型的训练数据,并且使用采集到的训练数据对卷积神经网络进行有监督训练;S2.基于强化学习的动态配置模块搭建与训练:无人机使用步骤S1中预训练完成的卷积神经网络在仿真平台中与环境进行飞行,并且通过不断与环境进行交互,使无人机能够不断更新模型,学习到当前所处的环境状态特征;利用强化学习模型的推断结果对卷积模型进行动态配置;S3.将仿真环境训练的模型迁移到现实环境:搭建装载计算设备的物理无人机,在现实环境中采集少量数据对导航模型进行微调,将仿真环境中训练的模型部署到物理环境中。2.根据权利要求1所述的基于深度强化学习的自主导航无人机功率优化方法,其特征在于,所述的步骤S1中,基于卷积神经网络的自主导航模型从无人机的前置摄像头获取三通道图像输入,推断出当前无人机的偏航角与碰撞概率,以此控制无人机的方向与速度。3.根据权利要求2所述的基于深度强化学习的自主导航无人机功率优化方法,其特征在于,偏航角与碰撞概率共享同一个卷积网络进行多任务学习;所述的卷积网络主体部分包含3个残差块,在残差块之后加入了空间域金字塔池化层对不同的输出大小进行池化操作,空间域金字塔池化层将不同的输入大小计算结果映射到固定大小的输出,并将输出结果输入到2个全连接层,并采用ReLU层进行非线性激活;在最后的ReLU激活层计算结束之后,两个任务停止共享参数并分为两个不同的全连接层分支,一个进行偏航角的预测,另一个进行碰撞概率推断。4.根据权利要求3所述的基于深度强化学习的自主导航无人机功率优化方法,其特征在于,使用均方误差MSE和二元交叉熵BCE分别训练偏航角和碰撞概率的推断,为了避免在训练过程中对这两种损失不施加权重而导致错误的收敛,采用动态权重的方式对模型进行训练,二元交叉熵所对应的权重系数具体可以表示为公式(1),其中均方差的权重系数恒为1;5.根据权利要求4所述的基于深度强化学习的自主导航无人机功率优化方法,其特征在于,所述的步骤S1中,通过在开源的AirSim仿真环境中操控无人机沿着不同路径进行飞行,采集训练数据捕捉路径和障碍物的线性特征;每一次飞行都会存储前向摄像机的带有时间戳的帧和对应的偏航角度;并且对数据集进行标注,远离障碍物的帧标记为0,帧碰撞标记为1,从而学习碰撞概率的推断。6.根据权利要求3所述的基于深度强化学习的自主导航无人机功率优化方法,其特征在于,所述的步骤S2中,强化学习采用Actor

Critic算法进行训练,无人机飞行经过一个时间块t之后,观测状态其中x
t
是平均碰撞概率,o
t
是环境复杂度观测值,是前三次动作的集合向量;接收到状态s
t
之后,强化学习模型训练好的策略计算出动作a
t
代表卷积神经网络输入层的大小,对应不同的环境感知力与计算功耗;通过索贝尔算子对图像
进行卷积,计算每一个像素的空间域信息,并且对每个像素的空间域信息的值取平均得出该图像的复杂度值;策略输出是一个动作集合的概率分布π:π(s
t
,a
t
)

[0,1].π(s
t
...

【专利技术属性】
技术研发人员:陈旭林椿珉周知
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1