【技术实现步骤摘要】
基于强化学习的未知环境自主导航系统及方法
本专利技术属于导航领域,具体涉及无人机导航领域,特别涉及一种基于强化学习的未知环境自主导航系统及方法。
技术介绍
无人机作为物联网的一个新兴组成部分,在航运领域、地理测绘、环境监测、灾害管理、精准农业等领域引起了越来越多的关注。在这些应用环境中,尤其是人工无法控制的应用环境中,基于无人机的自主导航系统路径规划发挥着更为重要的作用。传统的路径规划方法,例如A*算法、动态规划和人工势场法都具有在多个约束条件下(如时间、距离和能量)的一些优化问题的特征,这些方法严重依赖于已知的环境的先验知识,包括成损耗图和势场图。然而,即使有先验知识,对于具有强噪声的不完全数据,一些生成模型仍然具有较低的精度。此外,在路径规划中,起点和终点的变化会导致模型的修改和再训练,这会产生巨大的开销。虽然基于计算智能(ComputationalIntelligence,CI)的方法可以部分提高系统的鲁棒性,但它们仅限于将原有模型泛化到那些变化不大的环境中。更重要的是,由于训练环境和应用环境的巨大差异,在一个完全未知的环境中,如何利用现有信息建立飞行决策模型,并且将其推广到新的场景中是一个需要研究的重要问题。即时定位与地图构(SimultaneousLocalizationandMapping,SLAM)是一种替代方法,但它耗时且效率较低。总之,无人机的自动导航系统仍面临以下问题。首先,在建模过程中,模型过度依赖于特定的环境,这使得无人机不能自主适应不同的飞行环境。其次,无人机可能被派遣到一个 ...
【技术保护点】
1.一种基于强化学习的未知环境自主导航系统,其特征在于,包括交互模块、训练模块、规划模块和应用模块;所述交互模块、规划模块和应用模块三者相连,进行连续的路径规划操作;/n所述训练模块,用于将路径规划模型转化为飞行决策模型,并基于深度强化学习在模拟环境中对该模型进行训练;/n所述交互模块,用于实现无人机机载的多种传感器与实际环境进行交互,并将交互信息数据传输至规划模块;/n所述规划模块,和训练模块共享飞行决策模型,用于根据所述飞行决策模型和交互信息数据,进行无人机路径规划;/n所述应用模块,用于与规划模块进行交互,实现无人机在实际未知环境中的导航。/n
【技术特征摘要】
1.一种基于强化学习的未知环境自主导航系统,其特征在于,包括交互模块、训练模块、规划模块和应用模块;所述交互模块、规划模块和应用模块三者相连,进行连续的路径规划操作;
所述训练模块,用于将路径规划模型转化为飞行决策模型,并基于深度强化学习在模拟环境中对该模型进行训练;
所述交互模块,用于实现无人机机载的多种传感器与实际环境进行交互,并将交互信息数据传输至规划模块;
所述规划模块,和训练模块共享飞行决策模型,用于根据所述飞行决策模型和交互信息数据,进行无人机路径规划;
所述应用模块,用于与规划模块进行交互,实现无人机在实际未知环境中的导航。
2.根据权利要求1所述的基于强化学习的未知环境自主导航系统,其特征在于,所述多种传感器包括定位传感器、超声波传感器、图像传感器以及姿态传感器。
3.根据权利要求1所述的基于强化学习的未知环境自主导航系统,其特征在于,所述规划模块包括:
无人机状态获取单元,用于利用定位算法以及视觉感知算法分析交互模块获得的交互信息数据,获得无人机状态图;
无人机动作获取单元,用于将所述无人机状态图输入至训练后的飞行决策模型,输出无人机应采取的动作。
4.一种基于强化学习的未知环境自主导航方法,其特征在于,包括以下步骤:
步骤1,建立飞行决策模型,并在虚拟环境中基于深度强化学习对飞行决策模型进行训练,获得模型
步骤2,将无人机置于真实飞行环境中,无人机通过自身携载的多种传感器获取环境信息数据;
步骤3,对所述环境信息数据进行分析获得无人机状态图;
步骤4,将所述无人机状态图作为模型的输入,输出无人机对应采取的动作,之后转到步骤2,并将该动作作用于真实飞行环境中,改变无人机的状态,直至无人机到达终点,由此完成无人机在未知环境中的路径规划任务。
5.根据权利要求4所述的基于强化学习的未知环境自主导航方法,其特征在于,步骤1中所述建立飞行决策模型,具体包括:
将路径规划模型构建于马尔科夫决策模型框架中,获得马尔科夫决策过程的五元组:
<S,A,P,R,γ>
其中,S为一个有限的状态集合,st∈S代表无人机在每一个时间t的状态;A为一个有限的动作集合,at∈A代表无人机在每一个时间t所做的动作;P为一个状态转换概率:
P[s,a,s′]=P[St+1=s′|St=s,At=a];
R表示奖赏,包括即时奖赏和累积奖赏;其中,即时奖赏应用于无人机的飞行过程中,表示无人机在状态st时刻执行飞行动作at后转移到状态st+1,获得即时奖赏值rt=R(st,at,st+1),该奖赏值与以下几个因素有关:
(1)移动方向:以无人机的第一视角作为X轴正方向建立一个二维坐标系,计算目标相对于无人机的方向角θ:
式中,PT=(tx,ty,tz)为无人机要到达的目标位置,PUAV=(px,py,pz)为无人机当前的位置;在每一个时间节点后,若无人机前进方向与目标相对于无人机的方向一致时,无人机将会得到一个激励值λ∈(0,1);
(2)目标距离:在每一个时间节点后,随着无人机靠近目标,无人机将根据两者之间减少的距离Dr获得一个指数级别的激励值,其中Dr为:
式中,PtUAV表示无人机在t时...
【专利技术属性】
技术研发人员:顾晶晶,黄海涛,
申请(专利权)人:南京航空航天大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。