无人机路径规划方法及装置制造方法及图纸

技术编号:21886904 阅读:46 留言:0更新日期:2019-08-17 12:43
本发明专利技术实施例提供一种无人机路径规划方法及装置,该方法包括:获取示教轨迹集,根据所述示教轨迹集得到合格轨迹集,所述示教轨迹集是专家在控制无人机完成源任务时得到的无人机在空间中运动的轨迹,所述合格轨迹集为所述示教轨迹中满足预设条件的轨迹;根据所述合格轨迹集获取空间内各网格的访问频数,所述空间内各网格是将空间进行区域网格划分得到的;基于Q‑learning方法,根据所述空间内各网格的访问频数,得到无人机规划路径。本发明专利技术实施例提供的无人机路径规划方法及装置,通过专家知识在示教轨迹中的引入,能够解决现有技术由于环境复杂程度较高,而导致无人机找不到终点从而使得路径规划失败的问题。

Unmanned Aerial Vehicle Path Planning Method and Device

【技术实现步骤摘要】
无人机路径规划方法及装置
本专利技术实施例涉及飞行器
,尤其涉及一种无人机路径规划方法及装置。
技术介绍
随着车辆数目的日益增加,地面交通变得拥堵不堪,因此,空中交通受到广泛的关注。其中,飞行器的路径规划是保障空中交通安全和提高交通效率的关键步骤。通常情况下,路径规划是按照一定的评价体系,在规定的时间和空间约束下,寻找由起点到终点的最优路径。但是在实际情况中,飞行器在工作过程中往往无法掌握空间环境的全部信息,有时还要面对地形环境,自身机动性能等因素的限制。这些不利因素无疑给无人机的路径规划造成了不小的挑战。国内外研究人员在路径规划方面做了大量的工作,包括一些传统规划方法和基于强化学习的方法。现有的规划方法主要包括Dijkstra算法和A*算法等,这些规划方法能够获取到从初始点到目的地的最短路径,但是在实施的过程中,必须要事先知道完整的环境信息。同时,这些算法本身的复杂度较高,随着问题规模的增长,算法所需要的计算资源将急剧增大。因此在实际情况下,上述路径规划方法难以得到应用。为解决该问题,基于强化学习的方法被提出,强化学习方法无需事先知道完整的环境信息,方法的复杂度也较低,但是在实际应用中,当周围环境的复杂程度较高时,无人机在训练过程中可能会在较长的时间中,失去探索的方向,甚至困在某个循环中,以致找不到终点,从而使得路径规划失败。因此,现在亟需一种无人机路径规划方法,解决上述由于环境复杂程度较高,而导致无人机找不到终点从而使得路径规划失败的问题。
技术实现思路
本专利技术实施例提供一种无人机路径规划方法及装置,以解决现有技术由于环境复杂程度较高,而导致无人机找不到终点从而使得路径规划失败的问题。第一方面,本专利技术实施例提供一种无人机路径规划方法,包括:获取示教轨迹集,根据所述示教轨迹集得到合格轨迹集,所述示教轨迹集是专家在控制无人机完成源任务时得到的无人机在空间中运动的轨迹,所述合格轨迹集为所述示教轨迹中满足预设条件的轨迹;根据所述合格轨迹集获取空间内各网格的访问频数,所述空间内各网格是将空间进行区域网格划分得到的;基于Q-learning方法,根据所述空间内各网格的访问频数,得到无人机规划路径。在一种可能的设计中,所述获取示教轨迹集,根据所述示教轨迹集得到合格轨迹集,具体包括:根据目标子任务得到源任务集,所述目标子任务是根据无人机路径规划中的实际动作得到的;获取专家在控制无人机完成所述源任务集中各项源任务时无人机在空间中运动的轨迹,得到所述示教轨迹集;基于动态运动基元和卷积神经网络,对所述示教轨迹集进行分类,得到所述合格轨迹集。在一种可能的设计中,所述根据所述合格轨迹集获取空间内各网格的访问频数,具体包括:获取所述空间内任意两个网格之间的相互影响因子;根据所述相互影响因子得到任一网格在一项所述源任务中的访问频数;根据权重因子和所述任一网格在一项所述源任务中的访问频数,得到所述空间内各网格的访问频数,所述权重因子根据专家对各项源任务的重要性排序得到。在一种可能的设计中,所述空间内各网格的访问频数具体为:其中,m为所述空间内第m号网格,nm为所述空间内第m号网格的访问频数,i为第i项源任务,wi为第i项源任务的权重因子,nmi为所述空间内第m号网格针对第i项源任务的访问频数,k为源任务的总项数。在一种可能的设计中,所述基于Q-learning方法,根据所述空间内各网格的访问频数,得到无人机规划路径,具体包括:初始化迭代次数;当所述迭代次数未达到预设次数时,基于e-greedy策略,根据所述空间内各网格的访问频数,获取当前状态动作函数的下一状态动作函数;根据所述当前状态动作函数的下一状态动作函数,对所述当前状态动作函数进行训练更新,得到更新后的状态动作函数;当所述迭代次数达到所述预设次数后,根据所述更新后的状态动作函数获取训练后的状态动作函数,根据所述更新后的状态动作函数和所述训练后的状态动作函数得到所述无人机规划路线。在一种可能的设计中,所述基于e-greedy策略,根据所述空间内各网格的访问频数,获取当前状态动作函数的下一状态动作函数,具体包括:根据所述空间内各网格的访问频数和所述当前状态动作函数,得到状态概率;根据所述状态概率获取下一步动作和下一步状态,所述下一步动作为无人机下一步要执行的动作,所述下一步状态为所述无人机执行所述下一步动作后所处的状态;根据所述下一步动作和所述下一步状态,得到所述当前状态动作函数的下一状态动作函数。在一种可能的设计中,所述更新后的状态动作函数具体为:其中,s为当前状态,a为当前动作,s'为下一步状态,a'为下一步动作,Q'(s,a)为所述更新后的状态动作函数,Q(s,a)为所述当前状态动作函数,Q(s',a')为所述下一状态动作函数,α为训练速率,r为即时报酬,γ为折扣率,用于减小下一状态动作对当前状态动作的影响。第二方面,本专利技术实施例提供一种无人机路径规划装置,包括:获取模块,用于获取示教轨迹集,根据所述示教轨迹集得到合格轨迹集,所述示教轨迹集是专家在控制无人机完成源任务时得到的无人机在空间中运动的轨迹,所述合格轨迹集为所述示教轨迹中满足预设条件的轨迹;处理模块,用于根据所述合格轨迹集获取空间内各网格的访问频数,所述空间内各网格是将空间进行网格化得到的;规划模块,用于基于Q-learning方法,根据所述空间内各网格的访问频数,得到无人机规划路径。在一种可能的设计中,所述获取模块具体用于:根据目标子任务得到源任务集,所述目标子任务是根据无人机路径规划中的实际动作得到的;获取专家在控制无人机完成所述源任务集中各项源任务时无人机在空间中运动的轨迹,得到所述示教轨迹集;基于动态运动基元和卷积神经网络,对所述示教轨迹集进行分类,得到所述合格轨迹集。在一种可能的设计中,所述处理模块具体用于:获取所述空间内任意两个网格之间的相互影响因子;根据所述相互影响因子得到任一网格在一项所述源任务中的访问频数;根据权重因子和所述任一网格在一项所述源任务中的访问频数,得到所述空间内各网格的访问频数,所述权重因子根据专家对各项源任务的重要性排序得到。在一种可能的设计中,所述空间内各网格的访问频数具体为:其中,m为所述空间内第m号网格,nm为所述空间内第m号网格的访问频数,i为第i项源任务,wi为第i项源任务的权重因子,nmi为所述空间内第m号网格针对第i项源任务的访问频数,k为源任务的总项数。在一种可能的设计中,所述规划模块具体用于:初始化迭代次数;当所述迭代次数未达到预设次数时,基于e-greedy策略,根据所述空间内各网格的访问频数,获取当前状态动作函数的下一状态动作函数;根据所述当前状态动作函数的下一状态动作函数,对所述当前状态动作函数进行训练更新,得到更新后的状态动作函数;当所述迭代次数达到所述预设次数后,根据所述更新后的状态动作函数获取训练后的状态动作函数,根据所述更新后的状态动作函数和所述训练后的状态动作函数得到所述无人机规划路线。在一种可能的设计中,所述规划模块具体还用于:根据所述空间内各网格的访问频数和所述当前状态动作函数,得到状态概率;根据所述状态概率获取下一步动作和下一步状态,所述下一步动作为无人机下一步要执行的动作,所述下一步状态为所述无人机执行所述下一步动作后所处的本文档来自技高网...

【技术保护点】
1.一种无人机路径规划方法,其特征在于,包括:获取示教轨迹集,根据所述示教轨迹集得到合格轨迹集,所述示教轨迹集是专家在控制无人机完成源任务时得到的无人机在空间中运动的轨迹,所述合格轨迹集为所述示教轨迹中满足预设条件的轨迹;根据所述合格轨迹集获取空间内各网格的访问频数,所述空间内各网格是将空间进行区域网格划分得到的;基于Q‑learning方法,根据所述空间内各网格的访问频数,得到无人机规划路径。

【技术特征摘要】
1.一种无人机路径规划方法,其特征在于,包括:获取示教轨迹集,根据所述示教轨迹集得到合格轨迹集,所述示教轨迹集是专家在控制无人机完成源任务时得到的无人机在空间中运动的轨迹,所述合格轨迹集为所述示教轨迹中满足预设条件的轨迹;根据所述合格轨迹集获取空间内各网格的访问频数,所述空间内各网格是将空间进行区域网格划分得到的;基于Q-learning方法,根据所述空间内各网格的访问频数,得到无人机规划路径。2.根据权利要求1所述的方法,其特征在于,所述获取示教轨迹集,根据所述示教轨迹集得到合格轨迹集,具体包括:根据目标子任务得到源任务集,所述目标子任务是根据无人机路径规划中的实际动作得到的;获取专家在控制无人机完成所述源任务集中各项源任务时无人机在空间中运动的轨迹,得到所述示教轨迹集;基于动态运动基元和卷积神经网络,对所述示教轨迹集进行分类,得到所述合格轨迹集。3.根据权利要求1所述的方法,其特征在于,所述根据所述合格轨迹集获取空间内各网格的访问频数,具体包括:获取所述空间内任意两个网格之间的相互影响因子;根据所述相互影响因子得到任一网格在一项所述源任务中的访问频数;根据权重因子和所述任一网格在一项所述源任务中的访问频数,得到所述空间内各网格的访问频数,所述权重因子根据专家对各项源任务的重要性排序得到。4.根据权利要求3所述的方法,其特征在于,所述空间内各网格的访问频数具体为:其中,m为所述空间内第m号网格,nm为所述空间内第m号网格的访问频数,i为第i项源任务,wi为第i项源任务的权重因子,nmi为所述空间内第m号网格针对第i项源任务的访问频数,k为源任务的总项数。5.根据权利要求1所述的方法,其特征在于,所述基于Q-learning方法,根据所述空间内各网格的访问频数,得到无人机规划路径,具体包括:初始化迭代次数;当所述迭代次数未达到预设次数时,基于e-greedy策略,根据所述空间内各网格的访问频数,获取当前状态动作函数的下一状态动作函数;根据所述当前状态动作函数的下一状态动作函数,对所述当前状态动作函数进行训练更新,得到更新后的状态动作函数;当所述迭代次...

【专利技术属性】
技术研发人员:曹先彬杜文博郭通张晋通李宇萌
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1