基于深度强化学习的无人机自主避障系统及方法技术方案

技术编号:33063801 阅读:62 留言:0更新日期:2022-04-15 09:53
本发明专利技术公布了基于深度强化学习的无人机自主避障系统和方法,通过新颖的系统架构,将训练与决策分离,能够大幅降低训练时耗,提升飞行器决策时效;该自主避障方法采用基于策略迭代的深度强化学习模型,以无人机单目摄像机拍摄的以原始的RGB图像为训练数据,无需复杂的点云等其他3D信息,通过完全卷积神经网络对原始RGB图形进行训练获得深度图像信息,再通过基于策略迭代的强化学习方法对图像进行分析预测,提前预判出无人机下一时刻的飞行动作,实现自主避障。本发明专利技术提出的避障方法训练时耗比现有典型的基于值迭代的方法都更加高效、时耗更低,可实现灵活自主地避障,适用于变电站自动巡检、无人机巡航等高要求的自主避障场景。场景。场景。

【技术实现步骤摘要】
基于深度强化学习的无人机自主避障系统及方法


[0001]本专利技术涉及一种无人机避障系统及方法,具体涉及一种基于深度强化学习的无人机自主避障系统及方法;属于无人机飞行控制


技术介绍

[0002]避障是无人机的核心问题之一,其目标是让无人机自主探索未知环境以避免与其他物体发生碰撞,以获得一条能够避开威胁安全到达目标的飞行路径。传统的避障技术是通过检测可穿越的空间和障碍物,再进行路径规划,其使用的数据信息是通过RGB

D相机、光检测、测距传感器(LIDAR)、甚至声呐等捕获的。这些传统的避障技术能够较好地适用于地面机器人的自主避障,但是在无人机这类空中飞行器的自主避障中进行应用时存在较大难度。具体表现在测距传感器只能捕获有限的信息,并且对无人机而言,其重量过大又耗电,且价格昂贵。相对而言,单目摄像机能捕获环境的丰富信息,且成本低、重量轻,适用于各种平台。但是,当通过单目摄像机捕获距离感知时(即RGB图像),3

D世界被扁平化为一个2

D图像,消除了像素和距离之间的直接对应关系,避障问题变得异常困难。
[0003]随着深度学习在机器人和计算机视觉中的广泛应用,将深度学习应用于避障路径规划也变得越来越流行。现有技术中有技术采用卷积神经网络(CNN)训练方法使飞行器能够在复杂的森林环境中巡航。有的技术则通过使用3D点云数据训练卷积神经网络来标记轨迹类型。这些方法可分为监督学习半监督学习两大类,前者需要耗费大量的人力进行类型标记,后者的学习策略某种程度上受标签生成策略的限制。
[0004]深度强化学习 (DRL)方法最近已被证明,在充分利用原始图像的基础上,在游戏中可实现超人的表现。因此,近年来人们开始关注利用DRL研究实现基于视觉的自主避障,这些工作的一个共同点就是模型训练的数据并不是原始图像。有的使用激光扫描仪和深度图像数据进行网络训练,有的则提出完全在3D CAD模型模拟器中训练网络以预测碰撞。尽管这些工作可以将训练的网络扩展到真实世界,但仍需要大量的计算资源来生成庞大的数据集并对其进行训练。基于上述原因,有必要提出一种更加实用便捷的无人机自主避障技术。

技术实现思路

[0005]为解决现有技术的不足,本专利技术的目的在于提供一种基于深度强化学习的无人机自主避障系统及方法,通过单目摄像机采集的原始RGB图像即可实现灵活、高效地自主避障。
[0006]为了实现上述目标,本专利技术采用如下的技术方案:本专利技术首先公布了一种基于深度强化学习的无人机自主避障系统,包括:服务器,用于完成数据训练与计算;基站,与所述服务器连接;飞行器,与所述基站通联,接受由基站反馈的服务器训练结果,做出飞行决策;
所述服务器包括本地服务器和云端服务器,两者通过互联网实现连接。
[0007]优选地,前述飞行器为无人机,安装有用于拍摄原始RGB图像的单目摄像机。
[0008]本专利技术还公布了采用前述的基于深度强化学习的无人机自主避障系统的避障方法,包括如下步骤:S1、获取无人机单目摄像机采集的原始RGB图像;S2、采用完全卷积神经网络,对原始RGB图像进行训练,获得深度信息;S3、基于预设离散的无人机飞行动作(通过线速度和角速度描述),采用值基于迭代方法的强化学习方法,对深度图像进行训练;S4、服务器得出无人机预采取的飞行动作:线速度和角速度,再反馈给无人机,无人机基于此选择飞行动作,实现自主避障。
[0009]优选地,前述步骤S2的具体过程为:采集观察区域中像素值的加权和,卷积操作后采用非线性激活函数输出特征值,这里优选采用的非线性激活函数为sigmoid 函数:;具体地,采用FCNN完全卷积神经网络学习方式进行深度信息感知,系统接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的特征图进行上采样, 使其恢复到输入图像相同的尺寸,从而对每个像素都产生了一个预测,得到深度图像信息。
[0010]更优选地,前述FCNN每个阶段的操作均包括如下三个步骤:卷积、非线性激活、池化。
[0011]再优选地,前述步骤S3中基于策略的强化学习直接对策略进行直接迭代,用函数来近似地表示策略,其中, 表示无人机的状态,状态描述可用多维向量表示,包括无人机的飞行状态、飞行位置和环境信息(环境图像)等; 表示无人机的动作,包括飞行角速度和飞行速度; 表示包含可调节参数 的函数,使用参数 对所获得的策略进行近似; 表示状态 下采取动作 的概率;算法的目标是最大化策略的期望收益,其中表示在当前状态 下执行了动作 得到的奖赏。
[0012]再优选地,前述步骤中,由期望收益得到参数 的更新计算方法为: ,其中 是微分算子。基于这样的构思, Actor

Critic 方法在对策略进行直接迭代的基础上,增加值函数以评价选择的动作。Actor代表算法中的策略结构,它被用于动作选择; Critic则代表值函数,评价 Actor 所选择的动作。
[0013]更优选地,前述步骤S3中,更新Actor网络时采用剪切代理的方法,最大化,其中 是Actor函数的参数,和 分别表示旧策略和新策略;上述公式的前半部分是梯度更新,Actor在旧策略上,根据势 修改新策略,如果势较大,则修改幅度大,使得新策略更可能发生;上述公式的后半部分包含一个惩罚项,即KL散度,用参数 表示散度项的影响因子;如果新旧策略差异大,则KL散度也大,
这样不利于收敛。
[0014]进一步优选地,剪切代理的方法为:记,代理对象记为,剪切代理对象限制了代理的变化幅度;最终优化目标变成: ,其中表示裁剪函数,表示调节参数;更新Critic时,最小化,其中, 表示Critic函数的参数,Critic 网络的更新与一般的 Actor

Critic 框架并无差别, 也是最小化优势函数的误差; 表示带参数的状态值函数。
[0015]本专利技术的有益之处在于:(1)本专利技术的基于深度强化学习的避障系统,通过一种新颖的系统架构,将训练与决策分离,能够大幅降低训练时耗,提升飞行器决策时效;(2)本专利技术的无人机自主避障方法基于策略迭代(DPPO)的深度强化学习技术,采用无人机单目摄像机拍摄的RGB图像作为训练数据的原始图像获取深度图像信息,无需复杂的点云等其他3D信息,再通过深度强化学习方法对图像进行分析预测,提前预判出下一时刻应采取的飞行速度和飞行角度,实现自主避障。从几种方法的实验对比可以看出,本专利技术提出的基于策略迭代的方法训练性能更加比典型的基于值迭代方法DQN都更加高效、时耗更低、训练性能更加高效;(3)本专利技术的方法基于深度强化学习的避障学习模型,不同于简单的飞行控制动作,该模型输出的飞行器动作更加灵活,可任意设置离散的角速度和线速度,供飞行器选择,可实现高效灵活地避障,适用于变电站自动巡检、无人机巡航等高要求的自主避障场景。
[0016]附图说明
[0017]图1是本专利技术的避障方法的流程框图;图2是本专利技术的方法(DPPO)与现有技术中的基于值本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于深度强化学习的无人机自主避障系统,其特征在于,包括:服务器,用于完成数据训练与计算;基站,与所述服务器通讯连接;飞行器,与所述基站通联,接收由基站反馈的服务器训练结果,做出飞行决策;所述服务器包括本地服务器和云端服务器,两者通过互联网实现连接。2.根据权利要求1所述的基于深度强化学习的无人机自主避障系统,其特征在于,所述飞行器为无人机,安装有用于拍摄原始RGB图像的单目摄像机。3.采用权利要求1所述的基于深度强化学习的无人机自主避障系统的避障方法,其特征在于,包括如下步骤:S1、获取无人机单目摄像机采集的原始RGB图像;S2、采用完全卷积神经网络,对原始RGB图像进行训练,获得深度信息;S3、基于预设离散的无人机飞行动作:线速度和角速度,采用基于策略迭代方法的强化学习方法,对深度图像进行训练,获得下一时刻无人机应采取的最优飞行动作;S4、服务器得出无人机预采取的飞行动作:线速度和角速度,再反馈给无人机,无人机基于此选择飞行动作,实现自主避障。4.根据权利要求3所述的基于深度强化学习的无人机自主避障方法,其特征在于,所述步骤S2的具体过程为:采集观察区域内像素值的加权和,卷积操作后采用非线性激活函数输出特征值;具体地,采用完全卷积神经网络(FCNN)学习方式进行深度信息感知,系统接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的特征图进行上采样, 使其恢复到与输入图像相同的尺寸,从而对每个像素都产生了一个预测,得到深度图像信息。5.根据权利要求4所述的基于深度强化学习的无人机自主避障方法,其特征在于,所述FCNN每个阶段的操作均包括如下三个步骤:卷积、非线性激活、池化。6.根据...

【专利技术属性】
技术研发人员:王钦辉陈志龙魏军儒何昌其王云宪焦萍闫茜茜
申请(专利权)人:中国人民解放军陆军指挥学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1