一种基于竞争深度学习网络的无人机飞行路径规划方法技术

技术编号:21338761 阅读:45 留言:0更新日期:2019-06-13 21:34
本发明专利技术涉及一种基于竞争深度学习网络的无人机飞行路径规划方法,将摄像头拍摄的实时画面进行特征信息的提取,得到一列特征向量;对特征向量进行计算,算出状态函数值和优势函数值以后,在合并层上对这两个值进行合并,得到状态动作函数值;该值作为即时的状态动作函数值,与目标值网络进行配合,来构建网络的损失函数,对下一个状态进行预测,得到由内在奖励和外在奖励共同构成的总奖励;进行实时图片景深的预测;将计算得到另一个状态动作函数值;对损失函数的梯度进行计算并反向传播给当前值网络进行网络参数的更新。

A Method of UAV Flight Path Planning Based on Competitive Deep Learning Network

The present invention relates to a method of UAV flight path planning based on competitive depth learning network, which extracts the feature information from the real-time picture captured by the camera and obtains a list of feature vectors; calculates the feature vectors, calculates the value of the state function and the value of the dominant function, and merges the two values at the merging level to obtain the value of the state action function. When the state action function value is matched with the target value network, the loss function of the network is constructed, the next state is predicted, and the total reward composed of internal reward and external reward is obtained; the depth of field of the real-time picture is predicted; another state action function value is calculated; the gradient of the loss function is calculated and propagated back to the current value network. Update of row network parameters.

【技术实现步骤摘要】
一种基于竞争深度学习网络的无人机飞行路径规划方法
本专利技术一种基于竞争深度学习网络的无人机飞行路径规划方法,属于飞行器

技术介绍
目前随着地面交通的日益拥堵,越来越多的人将视线集中到空中交通这一领域。其中,无人机路径规划是空中交通领域中最热门的研究方向之一。一般情况下,路径规划指的是按照一定的评价体系,在环境空间的约束下,寻找由起点到终点的最优路径的问题。但在无人机工作的实际环境中,飞行器很难获取关于环境的全局信息。因此,无人机在飞行途中要经常面对突然出现在路径上的障碍物,并对此做出应急反应。这些苛刻的要求无疑为无人机路径规划这一课题带来不小的挑战,但同时也吸引了大量的学者投入到这一研究方向上。国内外研究人员在路径规划方面做了大量工作,其中就包括诸如A*,Dijkstra一类的传统规划算法。这类算法的实现需要环境的完美信息,换句话说,即是在各点距离,障碍物位置等信息全已知的情况下求解最优路径。但这种要求在无人机飞行的实际情况下难以实现,因为环境信息无法做到十分精确。因此,传统算法在无人机路径规划领域上受到了不小的限制。在传统算法不适用的情况下,目前的主流研究方向是引入强化学习的算法,其中最常用的就是Q-learning算法。强化学习指的是智能体以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。在现在比较流行的Q-learning算法中,为了实现路径规划,要先将无人机所在的空间进行网格化处理。网格化后的空间将会作为Q-learning算法的输入。无人机由当前状态到下一个状态实际上就是指无人机从一个网格移动到另一个网格中。如果网格划分得过于粗略,最终规划路径的精度不会很高。但如果网格划分的越细越多,输入给Q-learning算法的维数就越多,以致现有算力无法满足该问题对计算资源的需求量。于是,在应用Q-learning算法解决路径规划问题的过程中,现有技术只能是对无人机所在空间进行粗略的网格化处理。这就降低了无人机规划路径的精度。同时由于Q-learning算法中的一些在奖励设置上的内在缺陷,无人机路径规划的安全性与效率都难以达到要求。为改善现有技术所面临的问题,本专利技术提出了一种基于竞争深度学习网络的无人机飞行路径规划方法,可以在路径规划的精度,安全性和效率三个方面都有显著的提高。
技术实现思路
本专利技术技术解决问题:克服现有技术的不足,提供一种基于竞争深度学习网络的无人机飞行路径规划方法。该方法具有路径规划精度高,速度快,不易于障碍物发生碰撞的特点。因此,该方法能够实现路径规划在精准度,高效性安全性上的要求。本专利技术技术解决方案:一种基于竞争深度学习网络的无人机飞行路径规划方法,包括以下步骤:第一步,位于无人机上的摄像头对环境进行实时拍摄,得到图像。环境指的是无人机在执行当前飞行任务时所在的空间,它包括了无人机进行路径规划所需要的信息。同时,当无人机采取动作后,环境也会根据无人机所采取的动作进行反馈,更新它所能提供给无人机进行路径规划的信息。通过拍摄的方式,环境传递当前状态图像信息St和下一状态图像信息St+1到特征提取网络中。第二步,构建无人机内部的特征提取网络,特征提取网络采用的是卷积神经网络。这一步骤的目的是让无人机可以有效的处理并提炼拍摄得到的图像信息。特征提取网络对环境传递过来的图像信息进行特征信息的提取,最终输出为特征向量。如图2所示,特征提取网络包括卷积层与输出层。在特征提取的过程中,环境传递的图像信息经过卷积层时,图像信息中对描述环境有用的各个特征,如颜色,纹理,灰度,锐度等特征都被卷积层提取出来,并分别以数值的形式保存。但这些数值是以矩阵形式保存的。为方便计算,在输出层上做扁平化处理,得到特征向量。于是,当前状态图像信息St和下一状态图像信息St+1经过特征提取网络的处理以后,输出当前状态特征向量φt和下一状态特征向量φt+1。第三步,无人机内部的当前值网络要根据当前图像和奖励在环境内分布的情况,做出当前动作的选取。在特征提取网络将当前状态特征向量φt传递到当前值网络的同时,记忆单元将无人机在当前状态下可能采取的动作集合At传递给当前值网络。可能采取动作的集合At是动作集A*的子集。动作集A*是无人机在飞行过程中可以选择的全部动作的集合,它包括{左转,右转,跃升,俯冲,保持当前运动状态}这5个动作。之后,如图4所示,当前值网络中的两个网络层根据当前状态特征向量φt和当前状态可能采取的动作集合At,分别计算出状态函数值V和优势函数值A。状态函数值V和优势函数值A都是强化学习这一领域内的基本概念。状态函数值V指的是从某一状态开始到最终状态结束所能获得总奖励的数学期望。优势函数值A是用来衡量在某一状态下,不同的动作所具备的相对优势。计算出状态函数值V和优势函数值A后,如图4所示,当前值网络中的合并层会对状态函数值V和优势函数值A加以合并,得到状态动作函数值Q。状态动作函数值Q作为强化学习领域内的基本概念之一,代表的是从某一状态采取某一动作后开始到最终状态结束所能获得的总奖励的数学期望。如图4所示,合并层所输出的是多个状态动作函数值Q,这是由于当前状态下可能采取的动作集合At内可能包含多个动作,每个动作都对应着一个状态动作函数值Q。从多个状态动作函数值Q中选择最大的作为即时状态动作函数值Q(φt,at;θ)。其中φt是当前状态特征向量;at定义为当前动作,它的含义是多个状态动作函数值Q中最大的函数值所对应的动作,也就是即时状态动作函数值Q(φt,at;θ)所对应的动作;θ表示当前值网络的参数。之后无人机执行当前动作at,改变无人机的当前所处位置,同时无人机所处的环境也将发生变化。无人机执行动作这一过程反映在图3的网络整体模型概览中就是当前值网络将当前动作at传递给环境。如第一步中的叙述,环境接收到当前动作at后,将根据这一动作更新它所能提供给无人机进行路径规划的信息。除此以外,当前值网络中的即时状态动作函数值Q(φt,at;θ)将作为主体之一,参与到Q网络的损失函数的计算。其中,Q网络指的是当前值网络和目标值网络。Q网络的损失函数的计算关系到无人机内部的Q网络的优化。Q网络优化得越好,无人机在实际飞行任务中进行路径规划的效果就越好。第四步,完成图像特征提取以后,在无人机内的前向传播网络接收到来自特征提取网络所传递的当前状态特征向量φt和下一状态特征向量φt+1的同时,环境将当前动作at和外在奖励Re也传递给前向传播网络。前向传播网络根据当前动作at和当前状态特征向量φt计算出下一状态特征向量的预测值,记为与此同时,记特征提取网络传递的下一状态特征向量φt+1为真值。定义内在奖励Ri是由下一状态特征向量的预测值和下一状态特征向量φt+1求均方误差得到的。得到了内在奖励Ri之后,与环境所传来的外在奖励Re共同构成总奖励R。其中外在奖励是飞行开始前就规定好的。到达终点位置会有正奖励。到达障碍物所在位置,即与障碍物发生碰撞会带来负奖励。其余位置的外在奖励设置为终点位置的外在奖励与发生碰撞的外在奖励之和的一半。强化学习的根本目标就是取得最大奖励。因此奖励的计算将影响到无人机在规划路径时动作的选取。之后,前向传播网络将当前状态特征向量φt和下一状态本文档来自技高网
...

【技术保护点】
1.一种基于竞争深度学习网络的无人机飞行路径规划方法,其特征在于,包括以下步骤:第一步,位于无人机上的摄像头对环境进行实时拍摄,得到图像;所述环境是无人机在执行当前飞行任务时所在的空间,它包括无人机进行路径规划所需要的信息;当无人机采取动作后,环境也会根据无人机所采取的动作进行反馈,更新它所能提供给无人机进行路径规划的信息,通过拍摄的方式,环境传递当前状态图像信息St和下一状态图像信息St+1到特征提取网络中;第二步,构建特征提取网络,所述特征提取网络对环境传递过来的当前状态图像信息St和下一状态图像信息St+1进行特征信息的提取,最终输出当前状态特征向量φt和下一状态特征向量φt+1,并传递至多层感知网络、当前值网络和前向传播网络;第三步,当前值网络根据当前图像和奖励在环境内分布的情况,做出当前动作的选取;在特征提取网络将当前状态特征向量φt传递到当前值网络的同时,记忆单元将无人机在当前状态下可能采取的动作集合At传递给当前值网络,可能采取动作的集合At是动作集A

【技术特征摘要】
1.一种基于竞争深度学习网络的无人机飞行路径规划方法,其特征在于,包括以下步骤:第一步,位于无人机上的摄像头对环境进行实时拍摄,得到图像;所述环境是无人机在执行当前飞行任务时所在的空间,它包括无人机进行路径规划所需要的信息;当无人机采取动作后,环境也会根据无人机所采取的动作进行反馈,更新它所能提供给无人机进行路径规划的信息,通过拍摄的方式,环境传递当前状态图像信息St和下一状态图像信息St+1到特征提取网络中;第二步,构建特征提取网络,所述特征提取网络对环境传递过来的当前状态图像信息St和下一状态图像信息St+1进行特征信息的提取,最终输出当前状态特征向量φt和下一状态特征向量φt+1,并传递至多层感知网络、当前值网络和前向传播网络;第三步,当前值网络根据当前图像和奖励在环境内分布的情况,做出当前动作的选取;在特征提取网络将当前状态特征向量φt传递到当前值网络的同时,记忆单元将无人机在当前状态下可能采取的动作集合At传递给当前值网络,可能采取动作的集合At是动作集A*的子集,动作集A*是无人机在飞行过程中可以选择的全部动作的集合;当前值网络中的两个网络层根据当前状态特征向量φt和当前状态可能采取的动作集合At,分别计算出状态函数值V和优势函数值A;状态函数值V指的是从某一状态开始到最终状态结束所能获得总奖励的数学期望;优势函数值A是用来衡量在某一状态下,不同的动作所具备的相对优势;计算出状态函数值V和优势函数值A后,当前值网络中的合并层对状态函数值V和优势函数值A合并,得到状态动作函数值Q;状态动作函数值Q表示从某一状态采取某一动作后开始到最终状态结束所能获得的总奖励的数学期望;合并层输出为多个状态动作函数值,从多个状态动作函数值中选择最大的作为即时状态动作函数值Q(φt,at;θ),其中φt是当前状态特征向量;at为当前动作,即是多个状态动作函数值Q中最大的函数值所对应的动作;之后无人机执行当前动作at,改变无人机的当前所处位置,同时无人机所处的环境也将发生变化,环境接收到当前动作at后,根据这一动作更新它所能提供给无人机进行路径规划的信息;此外,当前值网络中的即时状态动作函数值Q(φt,at;θ)将作为主体之一,参与到Q网络的损失函数的计算,Q网络指的是当前值网络和目标值网络,t为当前时刻。第四步,完成图像特征提取以后,在无人机内的前向传播网络接收到来自特征提取网络所传递的当前状态特征向量φt和下一状态特征向量φt+1的同时,环境将当前动作at和外在奖励Re也传递给前向传播网络;前向传播网络根据当前动作at和当前状态特征向量φt计算出下一状态特征向量的预测值,记为与此同时,记特征提取网络传递的下一状态特征向量φt+1为真值;定义内在奖励Ri是由下一状态特征向量的预测值和下一状态特征向量φt+1求均方误差得到的,得到内在奖励Ri之后,与环境所传来的外在奖励Re共同构成总奖励R,其中外在奖励是飞行开始前就规定好的;到达终点位置会有正奖励,到达障碍物所在位置,即与障碍物发生碰撞会带来负奖励,其余位置的外在奖励设置为终点位置的外在奖励与发生碰撞的外在奖励之和的一半;之后,前向传播网络将当前状态特征向量φt,下一状态特征向量φt+1,当前动作at和总奖励R所构成的一个四元组<φt,φt+1,a,R>,传递给记忆单元加以存储;第五步,根据第二步中特征提取网络所提取出来的当前状态特征向量φt,多层感知网络以当前状态特征向量φt作为输入,求得附加任务中景深的预测值,景深体现出无人机与前方可能出现的障碍物的距离信息,通过对景深的预测,无人机更好地控制自身与前方潜在的障碍物之间的距离,减少碰撞;第六步,无人机内的记忆单元向目标值网络传递下一状态特征向量φt+1和下一状态可能采取的动作集At+1,下一状态可能采取的动作集At+1包含多个动作,因此每个动作都对应着一个状态动作函数值Q;在接收到上述参数以后,目标值网络也对状态动作函数值Q进行计算,并输出最大状态动作函数值maxQ(φt+1,at+1;θ-),参数θ-代表目标值网络的参数;之后,在目标值网络传递最大状态动作函数值maxQ(φt+1,at+1;θ-)给Q网络的损失函数的同时,记忆单元也传递总奖励R给...

【专利技术属性】
技术研发人员:曹先彬杜文博朱熙郭通张晋通李宇萌
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1