一种基于改进Q学习的无人机航迹规划方法技术

技术编号:39048677 阅读:14 留言:0更新日期:2023-10-10 12:01
本申请提出的基于改进Q学习的无人机航迹规划方法、装置及存储介质中,包括通过三维网格法对无人机飞行环境进行三维环境建模,并将无人机飞行空间位置单元分割成相同立方体状;基于三维环境建模,构建用于求解无人机路径规划的马尔科夫决策过程模型;基于马尔科夫决策过程模型和无人机飞行的任务参数,通过饱和状态的搜索策略和改进Q学习算法,得到无人机最优航迹规划;将无人机最优航迹规划输入至三维环境建模中,得到无人机最优航迹的路径仿真结果。由此,本申请中通过饱和状态的搜索策略和改进Q学习算法,得到无人机最优航迹规划的过程中,改进Q学习算法减少了所需要学习的参数量,提高了学习效率,加快了算法收敛速度,从而节约资源。节约资源。节约资源。

【技术实现步骤摘要】
一种基于改进Q学习的无人机航迹规划方法


[0001]本申请涉及无人机航迹规划
,尤其涉及一种基于改进Q学习的无人机航迹规划方法、装置及存储介质。

技术介绍

[0002]无人机作为一种新型遥感监测平台,在多个领域得到了广泛应用。其中,无人机执飞过程中飞行环境未知且复杂多变,由此需要规划无人机航迹,以确保无人机在未知复杂环境中精准执飞。
[0003]相关技术中,采用统群智能优化算法(例如工蜂群算法、灰狼优化算法等)进行算法设计得到无人机航迹。但是,该算法需要预先获知环境信息,无法应用于无人机航迹规划中的未知环境。或者,通过强化学习算法自主学习构建评估函数,并在与环境的不断交互中持续优化。但是,强化学习算法学习效率不高,通常需要数以百万计的重复训练才能达到较好的效果,收敛速度较慢。

技术实现思路

[0004]本申请提供一种基于改进Q学习的无人机航迹规划方法,以解决上述相关技术中出现的技术问题。
[0005]本申请第一方面实施例提出一种基于改进Q学习的无人机航迹规划方法,所述方法包括:
[0006]通过三维网格法对无人机飞行环境进行三维环境建模,并将所述无人机飞行空间位置单元分割成相同立方体状;
[0007]基于所述三维环境建模,构建用于求解所述无人机路径规划的马尔科夫决策过程模型;
[0008]基于所述马尔科夫决策过程模型和无人机飞行的任务参数,通过饱和状态的搜索策略和改进Q学习算法,得到无人机最优航迹规划;
[0009]将所述无人机最优航迹规划输入至所述三维环境建模中,得到所述无人机最优航迹的路径仿真结果。
[0010]可选的,所述构建用于求解所述无人机路径规划的马尔科夫决策过程模型包括:构建无人机飞行动作空间表示和奖励函数。
[0011]可选的,所述奖励函数,包括:
[0012]R(s,a,s

)=R
obstale

Rt
hreat
+R
destination

[0013]其中,s为当前状态,s

表示执行动作a之后的下一个状态,R(s,a,s

)为所述无人机在s状态执行动作a之后到达s

的奖励,R
obstale
表示障碍奖励函数,R
threat
表示威胁奖励函数,R
destination
表示目标奖励。
[0014]可选的,所述改进Q学习算法中包括SQ表和Q表;所述基于所述马尔科夫决策过程模型和无人机飞行的任务参数,通过饱和状态的搜索策略和改进Q学习算法,得到无人机最
优航迹规划,包括:
[0015]获取无人机飞行的任务参数,其中,所述任务参数包括目标点和起点;
[0016]确定所述目标点和起点分别对应的终点状态和初始状态;
[0017]初始化SQ表和Q表,其中,所述初始化Q表中,每个状态动作对应的Q值初始化为零,所述初始化SQ表中,每个状态的目标动作对应的Q值初始化为零;
[0018]确定所述当前状态S
current
是否为饱和状态;
[0019]若确定所述S
current
不是饱和状态,则探索策略生成动作a,所述无人机通过执行动作a进入下一个状态S
next
,更新Q表中的S
current
执行动作a的Q值,并将所述S
current
替换所述S
next

[0020]若确定所述S
current
是饱和状态,则确定所述S
current
对应的目标动作,并更新SQ表中所述S
current
对应的Q值,结束此次轨迹训练;
[0021]重复上述操作,直至所述起点对应的状态为饱和状态结束训练,并将SQ表中每个状态对应的目标动作确定为无人机最优航迹规划。
[0022]可选的,所述确定所述当前状态S
current
是否为饱和状态,包括:
[0023]若当前状态对应的可选执行动作中存在一个动作能够直接到达目标点,则确定所述当前状态为饱和状态;或
[0024]若当前状态对应的所有可选执行动作指向的下一个状态均为饱和状态,则确定所述当前状态为饱和状态。
[0025]可选的,所述若确定所述S
current
是饱和状态,则确定所述S
current
对应的目标动作,并更新SQ表中所述S
current
对应的Q值,包括:
[0026]若确定所述S
current
是饱和状态,则确定所述S
current
对应的所有可执行动作和所述每个可执行动作对应的Q值;
[0027]将所述S
current
对应的所有可执行动作中Q值最大对应的可执行动作,确定为所述S
current
对应的目标动作,并将所述SQ表中所述S
current
对应的Q值更新为目标动作对应的Q值。
[0028]可选的,所述将所述无人机最优航迹规划输入至所述三维环境建模中,得到所述无人机最优航迹的路径仿真结果,包括:
[0029]确定所述无人机最优航迹中,所述无人机在每个状态对应的执行动作;
[0030]基于所述无人机飞行的任务参数,将所述无人机在每个状态对应的执行动作,输入至所述三维环境建模中,得到所述无人机最优航迹的路径仿真结果。
[0031]本申请第二方面实施例提出一种基于改进Q学习的无人机航迹规划装置,所述装置包括:
[0032]建模模块,用于通过三维网格法对无人机飞行环境进行三维环境建模,并将所述无人机飞行空间位置单元分割成相同立方体状;
[0033]构建模块,用于基于所述三维环境建模,构建用于求解所述无人机路径规划的马尔科夫决策过程模型;
[0034]处理模块,用于基于所述马尔科夫决策过程模型和无人机飞行的任务参数,通过饱和状态的搜索策略和改进Q学习算法,得到无人机最优航迹规划;
[0035]输出模块,用于将所述无人机最优航迹规划输入至所述三维环境建模中,得到所述无人机最优航迹的路径仿真结果。
[0036]本申请的实施例提供的技术方案至少带来以下有益效果:
[0037]本申请提出的基于改进Q学习的无人机航迹规划方法、装置及存储介质中,包括通过三维网格法对无人机飞行环境进行三维环境建模,并将无人机飞行空间位置单元分割成相同立方体状;基于三维环境建模,构建用于求解无人机路径规划的马尔科夫决策过程模型;基于马尔科夫决策过程模型和无人机飞行的任务参数,通过饱和状态的搜索策略和改进Q学习算法,得到无人机最优航迹规划;将无人机最优航迹规划输入至三维环境建模中,得到无人机最优航迹的路径仿真结果。由此,本申请中通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进Q学习算法的无人机航迹规划方法,其特征在于,所述方法包括:通过三维网格法对无人机飞行环境进行三维环境建模,并将所述无人机飞行空间位置单元分割成相同立方体状;基于所述三维环境建模,构建用于求解所述无人机路径规划的马尔科夫决策过程模型;基于所述马尔科夫决策过程模型和无人机飞行的任务参数,通过饱和状态的搜索策略和改进Q学习算法,得到无人机最优航迹规划;将所述无人机最优航迹规划输入至所述三维环境建模中,得到所述无人机最优航迹的路径仿真结果。2.根据权利要求1所述的方法,其特征在于,所述构建用于求解所述无人机路径规划的马尔科夫决策过程模型包括:构建无人机飞行动作空间表示和奖励函数。3.根据权利要求2所述的方法,其特征在于,所述奖励函数,包括:R(s,a,s

)=R
obstale

R
threat
+R
destination
;其中,s为当前状态,s

表示执行动作a之后的下一个状态,R(s,a,s

)为所述无人机在s状态执行动作a之后到达s

的奖励,R
obstale
表示障碍奖励函数,R
threat
表示威胁奖励函数,R
destination
表示目标奖励。4.根据权利要求1所述的方法,其特征在于,所述改进Q学习算法中包括SQ表和Q表;所述基于所述马尔科夫决策过程模型和无人机飞行的任务参数,通过饱和状态的搜索策略和改进Q学习算法,得到无人机最优航迹规划,包括:获取无人机飞行的任务参数,其中,所述任务参数包括目标点和起点;确定所述目标点和起点分别对应的终点状态和初始状态;初始化SQ表和Q表,其中,所述初始化Q表中,每个状态动作对应的Q值初始化为零,所述初始化SQ表中,每个状态的目标动作对应的Q值初始化为零;确定所述当前状态S
current
是否为饱和状态;若确定所述S
current
不是饱和状态,则探索策略生成动作a,所述无人机通过执行动作a进入下一个状态S
next
,更新Q表中的S
current
执行动作a的Q值,并将所述S
current
替换所述S
next
;若确定所述S
current
是饱和状态,则确定所述S
current
对应的目标动作,并更新SQ表中所述S
current
对应的Q值,结束此次...

【专利技术属性】
技术研发人员:杨沛豪柴琦兀鹏越赵俊博陈予伦寇水潮王小辉高峰孙梦瑶郭新宇薛磊张立松贺婷燕云飞李志鹏郭昊王劼文高欢欢殷悦代本谦李菁华
申请(专利权)人:西安热工研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1