一种基于竞争深度学习网络的无人机飞行路径规划方法技术

技术编号：21338761 阅读：45 留言：0更新日期：2019-06-13 21:34

本发明专利技术涉及一种基于竞争深度学习网络的无人机飞行路径规划方法，将摄像头拍摄的实时画面进行特征信息的提取，得到一列特征向量；对特征向量进行计算，算出状态函数值和优势函数值以后，在合并层上对这两个值进行合并，得到状态动作函数值；该值作为即时的状态动作函数值，与目标值网络进行配合，来构建网络的损失函数，对下一个状态进行预测，得到由内在奖励和外在奖励共同构成的总奖励；进行实时图片景深的预测；将计算得到另一个状态动作函数值；对损失函数的梯度进行计算并反向传播给当前值网络进行网络参数的更新。

A Method of UAV Flight Path Planning Based on Competitive Deep Learning Network

The present invention relates to a method of UAV flight path planning based on competitive depth learning network, which extracts the feature information from the real-time picture captured by the camera and obtains a list of feature vectors; calculates the feature vectors, calculates the value of the state function and the value of the dominant function, and merges the two values at the merging level to obtain the value of the state action function. When the state action function value is matched with the target value network, the loss function of the network is constructed, the next state is predicted, and the total reward composed of internal reward and external reward is obtained; the depth of field of the real-time picture is predicted; another state action function value is calculated; the gradient of the loss function is calculated and propagated back to the current value network. Update of row network parameters.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于竞争深度学习网络的无人机飞行路径规划方法
本专利技术一种基于竞争深度学习网络的无人机飞行路径规划方法，属于飞行器

技术介绍
目前随着地面交通的日益拥堵，越来越多的人将视线集中到空中交通这一领域。其中，无人机路径规划是空中交通领域中最热门的研究方向之一。一般情况下，路径规划指的是按照一定的评价体系，在环境空间的约束下，寻找由起点到终点的最优路径的问题。但在无人机工作的实际环境中，飞行器很难获取关于环境的全局信息。因此，无人机在飞行途中要经常面对突然出现在路径上的障碍物，并对此做出应急反应。这些苛刻的要求无疑为无人机路径规划这一课题带来不小的挑战，但同时也吸引了大量的学者投入到这一研究方向上。国内外研究人员在路径规划方面做了大量工作，其中就包括诸如A*,Dijkstra一类的传统规划算法。这类算法的实现需要环境的完美信息，换句话说，即是在各点距离，障碍物位置等信息全已知的情况下求解最优路径。但这种要求在无人机飞行的实际情况下难以实现，因为环境信息无法做到十分精确。因此，传统算法在无人机路径规划领域上受到了不小的限制。在传统算法不适用的情况下，目前的主流研究方向是引入强化学习的算法，其中最常用的就是Q-learning算法。强化学习指的是智能体以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏。在现在比较流行的Q-learning算法中，为了实现路径规划，要先将无人机所在的空间进行网格化处理。网格化后的空间将会作为Q-learning算法的输入。无人机由当前状态到下一个状态实际上就是指无人机从一个网格移...

【技术保护点】
1.一种基于竞争深度学习网络的无人机飞行路径规划方法，其特征在于，包括以下步骤：第一步，位于无人机上的摄像头对环境进行实时拍摄，得到图像；所述环境是无人机在执行当前飞行任务时所在的空间，它包括无人机进行路径规划所需要的信息；当无人机采取动作后，环境也会根据无人机所采取的动作进行反馈，更新它所能提供给无人机进行路径规划的信息，通过拍摄的方式，环境传递当前状态图像信息St和下一状态图像信息St+1到特征提取网络中；第二步，构建特征提取网络，所述特征提取网络对环境传递过来的当前状态图像信息St和下一状态图像信息St+1进行特征信息的提取，最终输出当前状态特征向量φt和下一状态特征向量φt+1，并传递至多层感知网络、当前值网络和前向传播网络；第三步，当前值网络根据当前图像和奖励在环境内分布的情况，做出当前动作的选取；在特征提取网络将当前状态特征向量φt传递到当前值网络的同时，记忆单元将无人机在当前状态下可能采取的动作集合At传递给当前值网络，可能采取动作的集合At是动作集A

【技术特征摘要】
1.一种基于竞争深度学习网络的无人机飞行路径规划方法，其特征在于，包括以下步骤：第一步，位于无人机上的摄像头对环境进行实时拍摄，得到图像；所述环境是无人机在执行当前飞行任务时所在的空间，它包括无人机进行路径规划所需要的信息；当无人机采取动作后，环境也会根据无人机所采取的动作进行反馈，更新它所能提供给无人机进行路径规划的信息，通过拍摄的方式，环境传递当前状态图像信息St和下一状态图像信息St+1到特征提取网络中；第二步，构建特征提取网络，所述特征提取网络对环境传递过来的当前状态图像信息St和下一状态图像信息St+1进行特征信息的提取，最终输出当前状态特征向量φt和下一状态特征向量φt+1，并传递至多层感知网络、当前值网络和前向传播网络；第三步，当前值网络根据当前图像和奖励在环境内分布的情况，做出当前动作的选取；在特征提取网络将当前状态特征向量φt传递到当前值网络的同时，记忆单元将无人机在当前状态下可能采取的动作集合At传递给当前值网络，可能采取动作的集合At是动作集A*的子集，动作集A*是无人机在飞行过程中可以选择的全部动作的集合；当前值网络中的两个网络层根据当前状态特征向量φt和当前状态可能采取的动作集合At，分别计算出状态函数值V和优势函数值A；状态函数值V指的是从某一状态开始到最终状态结束所能获得总奖励的数学期望；优势函数值A是用来衡量在某一状态下，不同的动作所具备的相对优势；计算出状态函数值V和优势函数值A后，当前值网络中的合并层对状态函数值V和优势函数值A合并，得到状态动作函数值Q；状态动作函数值Q表示从某一状态采取某一动作后开始到最终状态结束所能获得的总奖励的数学期望；合并层输出为多个状态动作函数值，从多个状态动作函数值中选择最大的作为即时状态动作函数值Q(φt,at；θ)，其中φt是当前状态特征向量；at为当前动作，即是多个状态动作函数值Q中最大的函数值所对应的动作；之后无人机执行当前动作at，改变无人机的当前所处位置，同时无人机所处的环境也将发生变化，环境接收到当前动作at后，根据这一动作更新它所能提供给无人机进行路径规划的信息；此外，当前值网络中的即时状态动作函数值Q(φt,at；θ)将作为主体之一，参与到Q网络的损失函数的计算，Q网络指的是当前值网络和目标值网络,t为当前时刻。第四步，完成图像特征提取以后，在无人机内的前向传播网络接收到来自特征提取网络所传递的当前状态特征向量φt和下一状态特征向量φt+1的同时，环境将当前动作at和外在奖励Re也传递给前向传播网络；前向传播网络根据当前动作at和当前状态特征向量φt计算出下一状态特征向量的预测值，记为与此同时，记特征提取网络传递的下一状态特征向量φt+1为真值；定义内在奖励Ri是由下一状态特征向量的预测值和下一状态特征向量φt+1求均方误差得到的，得到内在奖励Ri之后，与环境所传来的外在奖励Re共同构成总奖励R，其中外在奖励是飞行开始前就规定好的；到达终点位置会有正奖励，到达障碍物所在位置，即与障碍物发生碰撞会带来负奖励，其余位置的外在奖励设置为终点位置的外在奖励与发生碰撞的外在奖励之和的一半；之后，前向传播网络将当前状态特征向量φt，下一状态特征向量φt+1，当前动作at和总奖励R所构成的一个四元组<φt,φt+1,a,R>，传递给记忆单元加以存储；第五步，根据第二步中特征提取网络所提取出来的当前状态特征向量φt，多层感知网络以当前状态特征向量φt作为输入，求得附加任务中景深的预测值，景深体现出无人机与前方可能出现的障碍物的距离信息，通过对景深的预测，无人机更好地控制自身与前方潜在的障碍物之间的距离，减少碰撞；第六步，无人机内的记忆单元向目标值网络传递下一状态特征向量φt+1和下一状态可能采取的动作集At+1，下一状态可能采取的动作集At+1包含多个动作，因此每个动作都对应着一个状态动作函数值Q；在接收到上述参数以后，目标值网络也对状态动作函数值Q进行计算，并输出最大状态动作函数值maxQ(φt+1,at+1；θ-)，参数θ-代表目标值网络的参数；之后，在目标值网络传递最大状态动作函数值maxQ(φt+1,at+1；θ-)给Q网络的损失函数的同时，记忆单元也传递总奖励R给...

【专利技术属性】
技术研发人员：曹先彬，杜文博，朱熙，郭通，张晋通，李宇萌，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人