基于自主学习的无人机智能避障方法技术

技术编号:22594100 阅读:53 留言:0更新日期:2019-11-20 10:47
本发明专利技术公开了基于自主学习的无人机智能避障方法,使无人机在三维可视化仿真环境中可利用摄像头获取的视觉信息,根据地形高度与障碍物高度,智能自主学习,以训练好的网络模型作为智能体对无人机进行定高飞行控制,实时调整飞行高度,实现自动地形跟随应用,完成自主避障任务。这一发明专利技术创建了三维可视化仿真环境,为智能自主避障算法提供了良好的训练环境,实现了人机实时操作的互动接口,并为智能体从仿真环境到真实环境的迁移训练提供了可能性。这一发明专利技术为其它深度增强学习算法提供了仿真试验平台,便于智能体进行多种场景、不同任务及多种算法的深度增强训练和测试。

Intelligent obstacle avoidance method of UAV Based on Autonomous Learning

The invention discloses an intelligent obstacle avoidance method of UAV Based on autonomous learning, which enables the UAV to use the visual information obtained by the camera in the three-dimensional visual simulation environment, to intelligently learn independently according to the terrain height and obstacle height, and to control the UAV's fixed height flight with the trained network model as the agent, adjust the flight height in real time, and realize automatic terrain following Application, complete the task of autonomous obstacle avoidance. The invention creates a three-dimensional visual simulation environment, provides a good training environment for intelligent autonomous obstacle avoidance algorithm, realizes the interactive interface of human-computer real-time operation, and provides the possibility for agent migration training from the simulation environment to the real environment. The invention provides a simulation test platform for other deep enhancement learning algorithms, which is convenient for agents to carry out deep enhancement training and testing of various scenes, tasks and algorithms.

【技术实现步骤摘要】
基于自主学习的无人机智能避障方法
本专利技术属于无人机自主避障技术的智能控制与引导系统和方法
,具体涉及一种基于自主学习的无人机智能避障方法。
技术介绍
避障能力是实现无人机自动化乃至智能化的关键环节,完善的无人机自主避障系统能够及时地避开飞行路径中的障碍物,极大地减少因操作失误造成的无人机损坏和伤及人身和建筑物的事故发生率。自主避障飞行对于无人机具有非常重要的意义,这可以保证无人机完成复杂的、多功能的高难度动作。无人机避障技术的发展可分为三个阶段,一是感知障碍物并悬停;二是自主绕开障碍物;三是进行场景建模和路径搜索。目前国内外关于无人机避障方面的研究还处于很初级的阶段,一般依赖于三维高程地图、多传感器或者其他高精度设备等技术来实现,如广泛应用的视觉SLAM算法主要以机器人为载体,利用视觉传感器生成障碍物的深度图,据此执行避障动作。但这一算法在图像处理方面需要人为指定需要提取的特征值,且易受光照、障碍物位置等因素影响,鲁棒性较差。一般深度学习方法通过训练大量感知图像,使无人机自己学习障碍物的特征,但由于难以明确障碍物的边界,缺乏正确避障的决策能力。
技术实现思路
本专利技术的目的在于克服上述现有技术的缺点,提供一种基于自主学习的无人机智能避障方法;本专利技术使用基于DQN的深度增强学习算法进行控制决策训练,构造分段加权奖励函数获得最优决策,提升了原有方法的鲁棒性,具备高度智能化与自主可控性。为达到上述目的,本专利技术采用以下技术方案予以实现:基于自主学习的无人机智能避障方法,包括以下步骤:(1)通过三维环境搭建系统搭建无人机处于的虚拟三维可视化仿真环境;三维可视化仿真环境的输入为控制无人机运行动作的决策,输出为下一时刻无人机摄像头拍摄的图像信息;(2)通过DQN算法在虚拟三维可视化仿真环境中对无人机进行自主避障训练,输出训练好的卷积神经网络;自主避障训练过程中以无人机摄像头拍摄的图像信息为输入,通过DQN算法中的卷积神经网络模型输出控制无人机运行动作的决策;通过卷积神经网络模型和虚拟三维可视化仿真环境的不断交互,不断更新卷积神经网络模型的权重参数θ,最终输出训练好的卷积神经网络;(3)通过训练好的卷积神经网络对无人机进行控制,完成无人机飞行过程中的自主避障任务。本专利技术的进一步改进在于:优选的,步骤(1)中,所述三维环境搭建系统为AirSim系统。优选的,步骤(2)中,无人机进行自主避障训练前首先设定任务训练次数为M,无人机循环遍历epoch=0,1,…,M-1次,每一次循环遍历的具体过程为:(2-1)在卷积神经网络模型中计算控制无人机运行方向的决策:以概率选择一个随机的动作astep或者卷积神经网络模型输出的最大Q值对应的动作astep,所述Q值为卷积神经网络模型输出的价值评估值,所述astep为卷积神经网络模型输出的无人机运行方向的决策,astep包括四种情况:原地不动、前进、上升和下降;(2-2)将卷积神经网络模型输出的决策astep输入到三维可视化仿真环境中,三维可视化仿真环境根据astep实时模拟无人机的飞行状态,由加权奖励函数计算得到奖励值rstep和下一次网络的输入状态xstep+1;(2-3)将样本(xstep,astep,rstep,xstep+1)存入经验池E中;(2-4)在三维可视化仿真环境中判断无人机当前状态xstep+1下是否处于终止状态,如果当前的状态xstep+1使任务终止,命令无人机返回初始位置,epoch加1,开始进行下一个epoch的任务训练;如果当前的状态xstep+1使任务未终止,step加1,重复执行上述步骤(2-1)-步骤(2-3)步直至任务终止;当任务终止时,一个循环遍历epoch结束;对于epoch=0,1,…,M-1,均单独重复上述步骤(2-1)-(2-4),直到卷积神经网络收敛,则无人机自主避障训练结束;所述epoch为无人机从初始状态到终止状态的一个完整过程;step为无人机经卷积神经网络模型输出的控制运行动作的决策的变化次数。优选的,步骤(2-1)中,所述卷积神经网络模型包括3个卷积层和2个全连接层;其中输入层为卷积层,卷积层的输入为无人机摄像头拍摄的图像信息;输出层为全连接层,全连接层的输出有4个节点,对应于卷积神经网络模型输出的控制无人机运行方向的4类决策:原地不动,前进,上升,下降。优选的,步骤(2-2)中,所述加权奖励函数分为以下三种情况:(4)当无人机在当前时间步内与障碍物或地面由于距离太近而发生碰撞时,奖励值为-100;(5)当无人机在当前时间步内的飞行高度相对于定高的垂直距离大于1m或者小于-2.5m时,奖励值设为-10;(6)当无人机不满足情况(1)和情况(2)且未到达最远距离位置时,奖励值为以下四种奖励类型奖励值的函数,设置无人机在当前时间步内的飞行距离为D,在当前时间步内的飞行高度与设置的定高的垂直距离H,四种奖励类型为:(3-1)无人机完成当前时间步内的飞行距离D的奖励值,奖励值为D2;(3-2)当无人机在当前时间步内与定高的垂直距离H大于0,奖励值为exp(-H/2);当H小于0,奖励值为exp(2*H);(3-3)无人机当前的时间步数的奖励值为(3-4)以及无人机在上一时间步的奖励值;该步骤最终的奖励值为:上一时间步的或上一时间步的优选的,步骤(2-4)中,所述任务终止包括三种情况:无人机与障碍物或地面发生碰撞;无人机的高度与设定高度的差值大于设定值;无人机飞行超过设定的最远距离位置;满足上述任一条件,任务终止。优选的,步骤(2-3)中,当经验池E积累到训练前观测的时间步后,每隔4步进行一次网络训练,随机从E中取出K个样本(xj,aj,rj,xj+1),j=1,2,…K;计算每一个样本(xj,aj,rj,xj+1)的目标值对损失函数(yj-Q(xj,aj;θ))2使用梯度下降法进行更新,得到更新的卷积神经网络模型的权重参数θ。优选的,其特征在于,K优选为32。与现有技术相比,本专利技术具有以下有益效果:本专利技术提出了一种基于自主学习的无人机智能避障方法,使无人机在三维可视化仿真环境中可利用摄像头获取的视觉信息,根据地形高度与障碍物高度,智能自主学习,以训练好的网络模型作为智能体对无人机进行定高飞行控制,实时调整飞行高度,实现自动地形跟随应用,完成自主避障任务。这一专利技术创建了三维可视化仿真环境,为智能自主避障算法提供了良好的训练环境,实现了人机实时操作的互动接口,并为智能体从仿真环境到真实环境的迁移训练提供了可能性。这一专利技术为其它深度增强学习算法提供了仿真试验平台,便于智能体进行多种场景、不同任务及多种算法的深度增强训练和测试。【附图说明】图1为本专利技术的三维可视化环境和策略网络模型的交互过程图;图2为本专利技术的基于深度增强学习的无人机自主避障训练流程图;图3为无人机无障碍物时本文档来自技高网...

【技术保护点】
1.基于自主学习的无人机智能避障方法,其特征在于,包括以下步骤:/n(1)通过三维环境搭建系统搭建无人机处于的虚拟三维可视化仿真环境;三维可视化仿真环境的输入为控制无人机运行动作的决策,输出为下一时刻无人机摄像头拍摄的图像信息;/n(2)通过DQN算法在虚拟三维可视化仿真环境中对无人机进行自主避障训练,输出训练好的卷积神经网络;/n自主避障训练过程中以无人机摄像头拍摄的图像信息为输入,通过DQN算法中的卷积神经网络模型输出控制无人机运行动作的决策;通过卷积神经网络模型和虚拟三维可视化仿真环境的不断交互,不断更新卷积神经网络模型的权重参数θ,最终输出训练好的卷积神经网络;/n(3)通过训练好的卷积神经网络对无人机进行控制,完成无人机飞行过程中的自主避障任务。/n

【技术特征摘要】
1.基于自主学习的无人机智能避障方法,其特征在于,包括以下步骤:
(1)通过三维环境搭建系统搭建无人机处于的虚拟三维可视化仿真环境;三维可视化仿真环境的输入为控制无人机运行动作的决策,输出为下一时刻无人机摄像头拍摄的图像信息;
(2)通过DQN算法在虚拟三维可视化仿真环境中对无人机进行自主避障训练,输出训练好的卷积神经网络;
自主避障训练过程中以无人机摄像头拍摄的图像信息为输入,通过DQN算法中的卷积神经网络模型输出控制无人机运行动作的决策;通过卷积神经网络模型和虚拟三维可视化仿真环境的不断交互,不断更新卷积神经网络模型的权重参数θ,最终输出训练好的卷积神经网络;
(3)通过训练好的卷积神经网络对无人机进行控制,完成无人机飞行过程中的自主避障任务。


2.根据权利要求1所述的基于自主学习的无人机智能避障方法,其特征在于,步骤(1)中,所述三维环境搭建系统为AirSim系统。


3.根据权利要求1所述的基于自主学习的无人机智能避障方法,其特征在于,步骤(2)中,无人机进行自主避障训练前首先设定任务训练次数为M,无人机循环遍历epoch=0,1,…,M-1次,每一次循环遍历的具体过程为:
(2-1)在卷积神经网络模型中计算控制无人机运行方向的决策:以概率选择一个随机的动作astep或者卷积神经网络模型输出的最大Q值对应的动作astep,所述Q值为卷积神经网络模型输出的价值评估值,所述astep为卷积神经网络模型输出的无人机运行方向的决策,astep包括四种情况:原地不动、前进、上升和下降;
(2-2)将卷积神经网络模型输出的决策astep输入到三维可视化仿真环境中,三维可视化仿真环境根据astep实时模拟无人机的飞行状态,由加权奖励函数计算得到奖励值rstep和下一次网络的输入状态xstep+1;
(2-3)将样本(xstep,astep,rstep,xstep+1)存入经验池E中;
(2-4)在三维可视化仿真环境中判断无人机当前状态xstep+1下是否处于终止状态,如果当前的状态xstep+1使任务终止,命令无人机返回初始位置,epoch加1,开始进行下一个epoch的任务训练;如果当前的状态xstep+1使任务未终止,step加1,重复执行上述步骤(2-1)-步骤(2-3)步直至任务终止;当任务终止时,一个循环遍历epoch结束;
对于epoch=0,1,…,M-1,均单独重复上述步骤(2-1)-(2-4),直到卷积神经网络收敛,则无人机自主避障训练结束...

【专利技术属性】
技术研发人员:王月娇马钟杨一岱唐雪寒王竹平
申请(专利权)人:西安微电子技术研究所
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1