【技术实现步骤摘要】
一种基于改进Q学习的无人机航迹规划方法
[0001]本申请涉及无人机航迹规划
,尤其涉及一种基于改进Q学习的无人机航迹规划方法、装置及存储介质。
技术介绍
[0002]无人机作为一种新型遥感监测平台,在多个领域得到了广泛应用。其中,无人机执飞过程中飞行环境未知且复杂多变,由此需要规划无人机航迹,以确保无人机在未知复杂环境中精准执飞。
[0003]相关技术中,采用统群智能优化算法(例如工蜂群算法、灰狼优化算法等)进行算法设计得到无人机航迹。但是,该算法需要预先获知环境信息,无法应用于无人机航迹规划中的未知环境。或者,通过强化学习算法自主学习构建评估函数,并在与环境的不断交互中持续优化。但是,强化学习算法学习效率不高,通常需要数以百万计的重复训练才能达到较好的效果,收敛速度较慢。
技术实现思路
[0004]本申请提供一种基于改进Q学习的无人机航迹规划方法,以解决上述相关技术中出现的技术问题。
[0005]本申请第一方面实施例提出一种基于改进Q学习的无人机航迹规划方法,所述方法包括:
[0006]通过三维网格法对无人机飞行环境进行三维环境建模,并将所述无人机飞行空间位置单元分割成相同立方体状;
[0007]基于所述三维环境建模,构建用于求解所述无人机路径规划的马尔科夫决策过程模型;
[0008]基于所述马尔科夫决策过程模型和无人机飞行的任务参数,通过饱和状态的搜索策略和改进Q学习算法,得到无人机最优航迹规划;
[0009]将所述无人机最优航迹规划输入至所 ...
【技术保护点】
【技术特征摘要】
1.一种基于改进Q学习算法的无人机航迹规划方法,其特征在于,所述方法包括:通过三维网格法对无人机飞行环境进行三维环境建模,并将所述无人机飞行空间位置单元分割成相同立方体状;基于所述三维环境建模,构建用于求解所述无人机路径规划的马尔科夫决策过程模型;基于所述马尔科夫决策过程模型和无人机飞行的任务参数,通过饱和状态的搜索策略和改进Q学习算法,得到无人机最优航迹规划;将所述无人机最优航迹规划输入至所述三维环境建模中,得到所述无人机最优航迹的路径仿真结果。2.根据权利要求1所述的方法,其特征在于,所述构建用于求解所述无人机路径规划的马尔科夫决策过程模型包括:构建无人机飞行动作空间表示和奖励函数。3.根据权利要求2所述的方法,其特征在于,所述奖励函数,包括:R(s,a,s
′
)=R
obstale
‑
R
threat
+R
destination
;其中,s为当前状态,s
′
表示执行动作a之后的下一个状态,R(s,a,s
′
)为所述无人机在s状态执行动作a之后到达s
′
的奖励,R
obstale
表示障碍奖励函数,R
threat
表示威胁奖励函数,R
destination
表示目标奖励。4.根据权利要求1所述的方法,其特征在于,所述改进Q学习算法中包括SQ表和Q表;所述基于所述马尔科夫决策过程模型和无人机飞行的任务参数,通过饱和状态的搜索策略和改进Q学习算法,得到无人机最优航迹规划,包括:获取无人机飞行的任务参数,其中,所述任务参数包括目标点和起点;确定所述目标点和起点分别对应的终点状态和初始状态;初始化SQ表和Q表,其中,所述初始化Q表中,每个状态动作对应的Q值初始化为零,所述初始化SQ表中,每个状态的目标动作对应的Q值初始化为零;确定所述当前状态S
current
是否为饱和状态;若确定所述S
current
不是饱和状态,则探索策略生成动作a,所述无人机通过执行动作a进入下一个状态S
next
,更新Q表中的S
current
执行动作a的Q值,并将所述S
current
替换所述S
next
;若确定所述S
current
是饱和状态,则确定所述S
current
对应的目标动作,并更新SQ表中所述S
current
对应的Q值,结束此次...
【专利技术属性】
技术研发人员:杨沛豪,柴琦,兀鹏越,赵俊博,陈予伦,寇水潮,王小辉,高峰,孙梦瑶,郭新宇,薛磊,张立松,贺婷,燕云飞,李志鹏,郭昊,王劼文,高欢欢,殷悦,代本谦,李菁华,
申请(专利权)人:西安热工研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。