基于强化学习的未知环境自主导航系统及方法技术方案

技术编号:24088563 阅读:207 留言:0更新日期:2020-05-09 07:04
本发明专利技术公开了一种基于强化学习的未知环境自主导航系统及方法,系统包括:训练模块,用于构建飞行决策模型,并基于深度强化学习在模拟环境中对该模型进行训练;交互模块,用于实现无人机机载传感器与环境的交互;规划模块,用于进行路径规划;应用模块,用于与规划模块进行交互,实现无人机在实际未知环境中的导航。方法包括:建立并训练飞行决策模型;获取真实环境信息数据;获取无人机状态图;将无人机状态图作为模型的输入,输出无人机对应采取的动作,之后转第二步,并将该动作作用于真实环境中,改变无人机的状态,直至无人机到达终点。本发明专利技术能实现无人机在无先验知识的前提下,进行未知环境的自主导航,具有结构简单、泛化能力强等特点。

Autonomous navigation system and method in unknown environment based on Reinforcement Learning

【技术实现步骤摘要】
基于强化学习的未知环境自主导航系统及方法
本专利技术属于导航领域,具体涉及无人机导航领域,特别涉及一种基于强化学习的未知环境自主导航系统及方法。
技术介绍
无人机作为物联网的一个新兴组成部分,在航运领域、地理测绘、环境监测、灾害管理、精准农业等领域引起了越来越多的关注。在这些应用环境中,尤其是人工无法控制的应用环境中,基于无人机的自主导航系统路径规划发挥着更为重要的作用。传统的路径规划方法,例如A*算法、动态规划和人工势场法都具有在多个约束条件下(如时间、距离和能量)的一些优化问题的特征,这些方法严重依赖于已知的环境的先验知识,包括成损耗图和势场图。然而,即使有先验知识,对于具有强噪声的不完全数据,一些生成模型仍然具有较低的精度。此外,在路径规划中,起点和终点的变化会导致模型的修改和再训练,这会产生巨大的开销。虽然基于计算智能(ComputationalIntelligence,CI)的方法可以部分提高系统的鲁棒性,但它们仅限于将原有模型泛化到那些变化不大的环境中。更重要的是,由于训练环境和应用环境的巨大差异,在一个完全未知的环境中,如何利用现有信息建立飞行决策模型,并且将其推广到新的场景中是一个需要研究的重要问题。即时定位与地图构(SimultaneousLocalizationandMapping,SLAM)是一种替代方法,但它耗时且效率较低。总之,无人机的自动导航系统仍面临以下问题。首先,在建模过程中,模型过度依赖于特定的环境,这使得无人机不能自主适应不同的飞行环境。其次,无人机可能被派遣到一个未知的环境中,这对处理未知情况的能力提出了很高要求。
技术实现思路
本专利技术的目的在于提供一种能高效且准确地引导无人机到达目的地,为未知环境中飞行的无人机提供路径规划的支持,从而提高无人机对不同飞行环境的适应能力的自主导航方法。实现本专利技术目的的技术解决方案为:一种基于强化学习的未知环境自主导航系统,包括交互模块、训练模块、规划模块和应用模块;所述交互模块、规划模块和应用模块三者相连,进行连续的路径规划操作;所述训练模块,用于将路径规划模型转化为飞行决策模型,并基于深度强化学习在模拟环境中对该模型进行训练;所述交互模块,用于实现无人机机载的多种传感器与实际环境进行交互,并将交互信息数据传输至规划模块;所述规划模块,和训练模块共享飞行决策模型,用于根据所述飞行决策模型和交互信息数据,进行无人机路径规划;所述应用模块,用于与规划模块进行交互,实现无人机在实际未知环境中的导航。进一步地,所述规划模块包括:无人机状态获取单元,用于利用定位算法以及视觉感知算法分析交互模块获得的交互信息数据,获得无人机状态图;无人机动作获取单元,用于将所述无人机状态图输入至训练后的飞行决策模型,输出无人机应采取的动作。一种基于强化学习的未知环境自主导航方法,包括以下步骤:步骤1,建立飞行决策模型,并在虚拟环境中基于深度强化学习对飞行决策模型进行训练,获得模型步骤2,将无人机置于真实飞行环境中,无人机通过自身携载的多种传感器获取环境信息数据;步骤3,对所述环境信息数据进行分析获得无人机状态图;步骤4,将所述无人机状态图作为模型的输入,输出无人机对应采取的动作,之后转到步骤2,并将该动作作用于真实飞行环境中,改变无人机的状态,直至无人机到达终点,由此完成无人机在未知环境中的路径规划任务。进一步地,步骤1中所述建立飞行决策模型,具体包括:将路径规划模型构建于马尔科夫决策模型框架中,获得马尔科夫决策过程的五元组:<S,A,P,R,γ>其中,S为一个有限的状态集合,st∈S代表无人机在每一个时间t的状态;A为一个有限的动作集合,at∈A代表无人机在每一个时间t所做的动作;P为一个状态转换概率:P[s,a,s′]=P[St+1=s′|St=s,At=a];R表示奖赏,包括即时奖赏和累积奖赏;其中,即时奖赏应用于无人机的飞行过程中,表示无人机在状态st时刻执行飞行动作at后转移到状态st+1,获得即时奖赏值rt=R(st,at,st+1),该奖赏值与以下几个因素有关:(1)移动方向:以无人机的第一视角作为X轴正方向建立一个二维坐标系,计算目标相对于无人机的方向角θ:式中,PT=(tx,ty,tz)为无人机要到达的目标位置,PUAV=(px,py,pz)为无人机当前的位置;在每一个时间节点后,若无人机前进方向与目标相对于无人机的方向一致时,无人机将会得到一个激励值λ∈(0,1);(2)目标距离:在每一个时间节点后,随着无人机靠近目标,无人机将根据两者之间减少的距离Dr获得一个指数级别的激励值,其中Dr为:式中,表示无人机在t时刻所处位置,表示无人机在t-1时刻所处位置;(3)障碍感知:无人机在靠近障碍物目标Pobs时,会获得与无人机和障碍物之间距离相关的惩罚值;(4)时间:随着时间的推移,给无人机一个固定的惩罚值μ,以使无人机能尽快到达目标终点;则即时奖赏可表示为:式中,T代表飞行时间;其中,累积奖赏定义为无人机在飞行路径中执行一系列动作之后的即时奖赏的累计值:式中,无人机的飞行路径为τ,τ=(s0,a0,s1,a1,...),rk代表在飞行状态sk采取动作ak转变到飞行状态sk+1得到的即时奖励值;γ∈(0,1)表示折扣因子。进一步地,步骤1中所述在虚拟环境中基于深度强化学习对飞行决策模型进行训练,具体包括:设置迭代轮数T、状态特征维度n、动作集A、步长α、衰减因子γ、探索率∈、网络结构、批量梯度下降的样本数m以及初始化经验回放集合E;步骤1-1,随机初始化网络的所有参数,构成参数向量ω,基于ω初始化所有飞行状态和飞行动作对应的价值Q;步骤1-2,初始化st为飞行状态序列的当前飞行状态,并获取其特征向量φ(st);步骤1-3,将当前飞行状态对应的特征向量作为网络的输入,获得该飞行状态对应的所有飞行动作对应的Q值;步骤1-4,利用∈-greedy策略从步骤1-3获得的所有Q值中选取某一Q值对应的飞行动作at;步骤1-5,在飞行状态st执行飞行动作at获得新的飞行状态st+1,获取即时奖赏rt以及判断飞行状态st+1是否为终止飞行状态的结果is_end,并获取飞行状态st+1对应的特征向量φ(st+1);步骤1-6,将e={φ(st),at,rt,φ(st+1),is_end}五元组作为一个样本,存入经验回放集合E;步骤1-7,将当前飞行状态转变为st+1;步骤1-8,判断经验回放集合E中的样本数是否大于等于m,若是执行步骤1-9,反之返回执行步骤1-3;步骤1-9,从经验回放集合E中采样m个样本e1,e2,e3,...,em,每个样本计算当前目标Q值yj:式中,代表当前参数为ω的网络,为飞行状态的特征向量,本文档来自技高网
...

【技术保护点】
1.一种基于强化学习的未知环境自主导航系统,其特征在于,包括交互模块、训练模块、规划模块和应用模块;所述交互模块、规划模块和应用模块三者相连,进行连续的路径规划操作;/n所述训练模块,用于将路径规划模型转化为飞行决策模型,并基于深度强化学习在模拟环境中对该模型进行训练;/n所述交互模块,用于实现无人机机载的多种传感器与实际环境进行交互,并将交互信息数据传输至规划模块;/n所述规划模块,和训练模块共享飞行决策模型,用于根据所述飞行决策模型和交互信息数据,进行无人机路径规划;/n所述应用模块,用于与规划模块进行交互,实现无人机在实际未知环境中的导航。/n

【技术特征摘要】
1.一种基于强化学习的未知环境自主导航系统,其特征在于,包括交互模块、训练模块、规划模块和应用模块;所述交互模块、规划模块和应用模块三者相连,进行连续的路径规划操作;
所述训练模块,用于将路径规划模型转化为飞行决策模型,并基于深度强化学习在模拟环境中对该模型进行训练;
所述交互模块,用于实现无人机机载的多种传感器与实际环境进行交互,并将交互信息数据传输至规划模块;
所述规划模块,和训练模块共享飞行决策模型,用于根据所述飞行决策模型和交互信息数据,进行无人机路径规划;
所述应用模块,用于与规划模块进行交互,实现无人机在实际未知环境中的导航。


2.根据权利要求1所述的基于强化学习的未知环境自主导航系统,其特征在于,所述多种传感器包括定位传感器、超声波传感器、图像传感器以及姿态传感器。


3.根据权利要求1所述的基于强化学习的未知环境自主导航系统,其特征在于,所述规划模块包括:
无人机状态获取单元,用于利用定位算法以及视觉感知算法分析交互模块获得的交互信息数据,获得无人机状态图;
无人机动作获取单元,用于将所述无人机状态图输入至训练后的飞行决策模型,输出无人机应采取的动作。


4.一种基于强化学习的未知环境自主导航方法,其特征在于,包括以下步骤:
步骤1,建立飞行决策模型,并在虚拟环境中基于深度强化学习对飞行决策模型进行训练,获得模型
步骤2,将无人机置于真实飞行环境中,无人机通过自身携载的多种传感器获取环境信息数据;
步骤3,对所述环境信息数据进行分析获得无人机状态图;
步骤4,将所述无人机状态图作为模型的输入,输出无人机对应采取的动作,之后转到步骤2,并将该动作作用于真实飞行环境中,改变无人机的状态,直至无人机到达终点,由此完成无人机在未知环境中的路径规划任务。


5.根据权利要求4所述的基于强化学习的未知环境自主导航方法,其特征在于,步骤1中所述建立飞行决策模型,具体包括:
将路径规划模型构建于马尔科夫决策模型框架中,获得马尔科夫决策过程的五元组:
<S,A,P,R,γ>
其中,S为一个有限的状态集合,st∈S代表无人机在每一个时间t的状态;A为一个有限的动作集合,at∈A代表无人机在每一个时间t所做的动作;P为一个状态转换概率:
P[s,a,s′]=P[St+1=s′|St=s,At=a];
R表示奖赏,包括即时奖赏和累积奖赏;其中,即时奖赏应用于无人机的飞行过程中,表示无人机在状态st时刻执行飞行动作at后转移到状态st+1,获得即时奖赏值rt=R(st,at,st+1),该奖赏值与以下几个因素有关:
(1)移动方向:以无人机的第一视角作为X轴正方向建立一个二维坐标系,计算目标相对于无人机的方向角θ:



式中,PT=(tx,ty,tz)为无人机要到达的目标位置,PUAV=(px,py,pz)为无人机当前的位置;在每一个时间节点后,若无人机前进方向与目标相对于无人机的方向一致时,无人机将会得到一个激励值λ∈(0,1);
(2)目标距离:在每一个时间节点后,随着无人机靠近目标,无人机将根据两者之间减少的距离Dr获得一个指数级别的激励值,其中Dr为:



式中,PtUAV表示无人机在t时...

【专利技术属性】
技术研发人员:顾晶晶黄海涛
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1