一种基于Q(λ)算法的无人机路径规划方法技术

技术编号:20910761 阅读:50 留言:0更新日期:2019-04-20 08:38
本发明专利技术提供了一种基于Q(λ)算法的无人机任务规划方法,包括环境建模步骤,马尔科夫决策过程模型初始化步骤,Q(λ)算法迭代计算步骤,根据状态价值函数计算最优路径步骤,首先根据无人机最小航迹段长度初始化栅格空间,将栅格空间坐标映射为航路点,并对圆形和多边形威胁区域进行表示,然后建立马尔科夫决策模型,包括无人机飞行动作空间表示,状态转移概率的设计,奖励函数的构造,然后采用Q(λ)算法在构建的模型基础上进行迭代计算,并根据最终收敛的状态价值函数计算得出一条能够安全避开威胁区域的无人机的最优路径,本发明专利技术将传统的Q学习算法与效用追踪结合,提升了价值函数收敛的速度与精度,引导无人机避开威胁区域并进行自主路径规划。

A path planning method for UAV based on Q(lambda) algorithm

The invention provides an UAV mission planning method based on Q(lambda) algorithm, which includes environmental modeling step, Markov decision process model initialization step, Q(lambda) algorithm iteration calculation step, and calculating the optimal path step according to the state value function. Firstly, the grid space is initialized according to the minimum track length of UAV, and the grid space coordinates are mapped to the route points, and the circle is formed. Then the Markov decision-making model is established, including the representation of UAV flight action space, the design of state transition probability and the construction of reward function. Then the Q(lambda) algorithm is used to iteratively calculate the model based on the model, and an unmanned person who can safely avoid the threat area is calculated according to the final convergent state value function. The invention combines the traditional Q learning algorithm with utility tracking, improves the convergence speed and accuracy of value function, and guides the UAV to avoid the threat area and carry out autonomous path planning.

【技术实现步骤摘要】
一种基于Q(λ)算法的无人机路径规划方法
本专利技术涉及一种无人机,具体的说是一种无人机路径规划方法,属于启发式算法

技术介绍
无人机路径规划是无人机任务规划的重要组成部分,是实现无人机自主执行任务的重要阶段。无人机路径规划要求在给定已知、部分已知或完全未知信息的环境中,规划出从起始点到达目标点,可以绕过威胁区和障碍物、安全可靠无碰撞、且同时满足各种约束条件的飞行航迹。根据无人机所处的战场环境信息的获取情况将路径规划分为全局路径规划和局部路径规划。在实际应用中,如果无人机能获取全局环境知识,可以使用动态规划实现路径规划。然而随着战场环境的复杂性和不确定性增加,无人机很少有环境的先验知识,所以在实际应用中需要无人机具有较强的适应动态环境的能力。在这种情况下,依赖于传感器信息实时感知威胁区域信息进行局部路径规划的技术就显示出巨大的优越性。目前的局部路径规划技术存在着算法易陷入局部极小或局部振荡、算法时间代价大和计算机信息存储量大、规则难以确定等问题。而基于行为的无人机路径规划方法称为当今研究的热点,其实质就是将传感器感知的环境状态映射到执行器的动作,基于行为的方法中对状态特征向量的设计和有监督的样本的获取在实际复杂环境中往往是非常困难的。因此这些问题亟待解决。
技术实现思路
本专利技术的目的是提供一种基于Q(λ)算法的无人机任务规划方法,结合Q学习和效用追踪(EligibilityTraces),对传感器感知的环境状态给与量化的奖惩信号,通过不断与环境的交互,引导无人机进行自主路径规划并进行安全避开威胁区域,实现对外界环境变化的快速响应,具有快速、实时的优点,提升无人机在未知或部分未知环境下适应能力。本专利技术提供一种基于Q(λ)算法的无人机路径规划方法,其特征在于:包括以下步骤:步骤1,环境建模:利用传感器采集到的环境信息,识别威胁区域,使用栅格法将无人机飞行环境进行建模,将连续的空间离散化,根据设定的空间大小生成均匀的网格图,将网格顶点作为离散后的航路点;步骤2,初始化马尔科夫决策过程模型:初始化适用于求解所述无人机路径规划的马尔科夫决策过程模型,所述马尔科夫决策过程模型可以用四元组<S,A,P,R>表示,S为无人机所处的状态空间,A为无人机的动作空间,P为状态转移矩阵,R为奖励函数,马尔科夫决策过程模型初始化包括对无人机飞行动作空间的表示、状态转移概率的设计以及奖励函数的构造;步骤3,在所建立的模型上,使用Q(λ)算法迭代计算:在步骤1和步骤2建立的模型基础上,使用结合Q-learning算法和效用追踪的Q(λ)算法进行迭代计算;引入状态动作价值函数Q(s,a)来表征无人机在状态s采取动作a的价值,建立Q表存储每个状态动作对<s,a>的价值;引入效用追踪函数E(s,a)表示终止状态与状态行为对<s,a>的因果关系;首先进行Q值和E值初始化,然后在每个学习周期内,通过Boltzmann策略选择在s状态下采取的动作a;执行动作a转移到下一状态s'后,通过Q值更新公式更新Q(s,a)的值,并通过E值更新公式更新所有状态动作对的E值,当到达终止状态时,当次学习周期结束,直到到达最大学习周期数后,Q(λ)算法迭代计算过程结束;步骤4,根据状态价值函数计算最优路径:经过步骤3后得到收敛的状态价值函数,则可以在状态s下选择具有最大Q值的动作a*,采取动作a*后继续采用确定性的策略,直到到达终止状态,最后将网格中的节点映射至经纬度则得到最优路径。作为本专利技术的进一步限定:所述步骤1环境建模的具体步骤为:步骤1.1根据无人机最小航迹段长度初始化栅格空间;无人机在若干个航点之间飞行是沿直线飞行,而到达某些航点时根据航迹要求而改变飞行姿态,最小航迹段长度是限制无人机在开始改变飞行姿态前必须直飞的最短距离,以无人机最小航迹段长度设置步长,可获得满足无人机自身约束的离散栅格空间;设置无人机起点位置的经纬度坐标为S=(lonS,latS),目标点的经纬度坐标为T=(lonT,latT),无人机最小航迹段长度为dmin,栅格空间的大小为m*n,将dmin设置为栅格步长,则m、n的计算公式为:步骤1.2将栅格空间坐标映射为航路点;将栅格顶点作为离散后的航路点,栅格空间中的坐标使用(x,y)表示,设置栅格空间原点(0,0)对应的经纬度坐标为(lono,lato),则(x,y)对应的航路点经纬度坐标(lonxy,latxy)的计算公式如下:lonxy=lono+dmin*x,latxy=lato+dmin*y。步骤1.3威胁区域信息的表示;无人机在飞行过程中要考虑威胁源的空间位置,根据威胁源种类将威胁区域分为圆形区域和多边形区域,在栅格空间中,将含有威胁区域的节点标注为1,表示为禁飞区域,不含有威胁区域的节点标注为0,表示为可飞区域;对于圆形威胁区域,设置区域圆心坐标为(lonc,latc),威胁区域半径为r(km),对于栅格中的每个节点(x,y),根据haversine公式计算节点对应的航路点到威胁区圆心的距离dxyo,haversine方程是根据经纬度坐标计算球面上两个点间的距离;如果dxyo≦r,则将(x,y)对应的节点标注为1,否则标注为0,对于多边形威胁区域,以航路点(lonxy,latxy)开始,向右(或向左)的水平方向作一射线,计算该射线与多边形区域的交点个数,如果交点个数为奇数,则航路点位于多边形威胁区内,将(x,y)节点标注为1,若交点个数为偶数,则在多边形威胁区外,将节点标注为1。作为本专利技术的进一步限定:所述步骤2马尔科夫决策过程模型初始化的具体步骤为:步骤2.1表示无人机飞行动作空间在栅格空间中将网格顶点作为航路点,则一个顶点到另一个顶点共有八个转移方向(边界点除外);根据无人机自身的约束和空间的威胁分布对转移方向做一定的限制,将无人机的行为泛化为离散动作空间,将航向状态以45°为间隔进行离散化,可以获得8个离散状态;根据设置的离散化航向状态,设置5个无人机飞行动作,直飞用数字0表示、右转45°用1表示,左转45°用2表示,右转90°用3表示、左转90°用4表示,则动作空间表示为A=[0,1,2,3,4],每个数字分别表示一个动作;步骤2.2设计状态转移概率状态转移概率是指当无人机在某一航路状态下执行动作后,到达另一航路状态的条件概率,用表示,代表无人机在状态s下执行动作a转移到状态s'的概率;由于在学习初期,无人机对环境未知,极易进入威胁区域,无人机进入威胁区域即代表一个学习周期结束,对环境的探索局限在初始状态附近,所以设定当无人机采取的动作会导致其进入威胁区域或者会导致无人机离开状态空间时,不发生状态转移,即无人机状态不发生改变,其余条件下将100%转移到动作指向的状态;无人机的状态空间为S,威胁区域空间为O,则的计算公式为:步骤2.3奖励函数的构造无人机进行航路点转移进入下一个状态时会获得即时奖励,基于Q(λ)算法的学习目标就是最大化累积即时奖励,奖励函数的构造要考虑影响航迹性能的各种指标,包括距目标点的距离、飞行安全性、威胁程度等;表示无人机在状态s下采取动作a转移到s'状态获得的即时奖励函数,计算公式如下,其中w1、w2、w3为加权系数,fd、fo、fa为经过归本文档来自技高网...

【技术保护点】
1.基于Q(λ)算法的无人机路径规划方法,其特征在于:包括以下步骤:步骤1,环境建模:利用传感器采集环境信息,识别威胁区域,使用栅格法将无人机飞行环境进行建模,将连续的空间离散化,根据设定的空间大小生成均匀的网格图,将网格顶点作为离散后的航路点;步骤2,初始化马尔科夫决策过程模型:初始化适用于求解所述无人机路径规划的马尔科夫决策过程模型,所述马尔科夫决策过程模型用四元组<S,A,P,R>表示,S为无人机所处的状态空间,A为无人机的动作空间,P为状态转移矩阵,R为奖励函数,马尔科夫决策过程模型初始化包括对无人机飞行动作空间的表示、状态转移概率的设计以及奖励函数的构造;步骤3,在所建立的模型上,使用Q(λ)算法迭代计算:在步骤1和步骤2建立的模型基础上,使用结合Q‑learning算法和效用追踪的Q(λ)算法进行迭代计算;引入状态动作价值函数Q(s,a)来表征无人机在状态s采取动作a的价值,建立Q表存储每个状态动作对<s,a>的价值;引入效用追踪函数E(s,a)表示终止状态与状态行为对<s,a>的因果关系;首先进行Q值和E值初始化,然后在每个学习周期内,通过Boltzmann策略选择在s状态下采取的动作a;执行动作a转移到下一状态s'后,通过Q值更新公式更新Q(s,a)的值,并通过E值更新公式更新所有状态动作对的E值,当到达终止状态时,当次学习周期结束,直到到达最大学习周期数后,Q(λ)算法迭代计算过程结束;步骤4,根据状态价值函数计算最优路径:经过步骤3后得到收敛的状态价值函数,则可以在状态s下选择具有最大Q值的动作a*,采取动作a*后继续采用确定性的策略,直到到达终止状态,最后将网格中的节点映射至经纬度则得到最优路径。...

【技术特征摘要】
1.基于Q(λ)算法的无人机路径规划方法,其特征在于:包括以下步骤:步骤1,环境建模:利用传感器采集环境信息,识别威胁区域,使用栅格法将无人机飞行环境进行建模,将连续的空间离散化,根据设定的空间大小生成均匀的网格图,将网格顶点作为离散后的航路点;步骤2,初始化马尔科夫决策过程模型:初始化适用于求解所述无人机路径规划的马尔科夫决策过程模型,所述马尔科夫决策过程模型用四元组<S,A,P,R>表示,S为无人机所处的状态空间,A为无人机的动作空间,P为状态转移矩阵,R为奖励函数,马尔科夫决策过程模型初始化包括对无人机飞行动作空间的表示、状态转移概率的设计以及奖励函数的构造;步骤3,在所建立的模型上,使用Q(λ)算法迭代计算:在步骤1和步骤2建立的模型基础上,使用结合Q-learning算法和效用追踪的Q(λ)算法进行迭代计算;引入状态动作价值函数Q(s,a)来表征无人机在状态s采取动作a的价值,建立Q表存储每个状态动作对<s,a>的价值;引入效用追踪函数E(s,a)表示终止状态与状态行为对<s,a>的因果关系;首先进行Q值和E值初始化,然后在每个学习周期内,通过Boltzmann策略选择在s状态下采取的动作a;执行动作a转移到下一状态s'后,通过Q值更新公式更新Q(s,a)的值,并通过E值更新公式更新所有状态动作对的E值,当到达终止状态时,当次学习周期结束,直到到达最大学习周期数后,Q(λ)算法迭代计算过程结束;步骤4,根据状态价值函数计算最优路径:经过步骤3后得到收敛的状态价值函数,则可以在状态s下选择具有最大Q值的动作a*,采取动作a*后继续采用确定性的策略,直到到达终止状态,最后将网格中的节点映射至经纬度则得到最优路径。2.根据权利要求1所述的基于Q(λ)算法的无人机路径规划方法,其特征在于:所述步骤1环境建模的具体步骤为:步骤1.1根据无人机最小航迹段长度初始化栅格空间;无人机在若干个航点之间飞行是沿直线飞行,而到达某些航点时根据航迹要求而改变飞行姿态,最小航迹段长度是限制无人机在开始改变飞行姿态前必须直飞的最短距离,以无人机最小航迹段长度设置步长,可获得满足无人机自身约束的离散栅格空间;设置无人机起点位置的经纬度坐标为S=(lonS,latS),目标点的经纬度坐标为T=(lonT,latT),无人机最小航迹段长度为dmin,栅格空间的大小为m*n,将dmin设置为栅格步长,则m、n的计算公式为:步骤1.2将栅格空间坐标映射为航路点;将栅格顶点作为离散后的航路点,栅格空间中的坐标使用(x,y)表示,设置栅格空间原点(0,0)对应的经纬度坐标为(lono,lato),则(x,y)对应的航路点经纬度坐标(lonxy,latxy)的计算公式如下:lonxy=lono+dmin*x,latxy=lato+dmin*y。步骤1.3威胁区域信息的表示;无人机在飞行过程中要考虑威胁源的空间位置,根据威胁源种类将威胁区域分为圆形区域和多边形区域,在栅格空间中,将含有威胁区域的节点标注为1,表示为禁飞区域,不含有威胁区域的节点标注为0,表示为可飞区域;对于圆形威胁区域,设置区域圆心坐标为(lonc,latc),威胁区域半径为r(km),对于栅格中的每个节点(x,y),根据haversine公式计算节点对应的航路点到威胁区圆心的距离dxyo,haversine方程是根据经纬度坐标计算球面上两个点间的距离;如果dxyo≦r,则将(x,y)对应的节点标注为1,否则标注为0,对于多边形威胁区域,以航路点(lonxy,latxy)开始,向右(或向左)的水平方向作一射线,计算该射线与多边形区域的交点个数,如果交点个数为奇数,则航路点位于多边形威胁区内,将(x,y)节点标注为1,若交点个数为偶数,则在多边形威胁区外,将节点标注为1。3.根据权利要求2所述的基于Q(λ)算法的无人机路径规划方法,其特征在于:所述步骤2马尔科夫决策过程模型初始化的具体步骤为:步骤2.1表示无人机飞行动作空间在栅格空间中将网格顶点作为航路点,则一个顶点到另一个顶点共有八个转移方向(边界点除外);根据无人机自身的约束和空间的威胁分布对转移方向做一定的限制,将无人机的行为泛化为离散动作空间,将航向状态以45°为间隔进行离散化,可以获得8个离散状态;根据设置的离散化航向状态,...

【专利技术属性】
技术研发人员:张迎周竺殊荣高扬孙仪张灿
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1