一种基于强化学习差分算法的无人机动态航迹规划方法技术

技术编号:35498321 阅读:22 留言:0更新日期:2022-11-05 17:00
本发明专利技术涉及无人机动态航迹规划技术领域,且公开了一种基于强化学习差分算法的无人机动态航迹规划方法,包括以下步骤:S1:获取无人机需要飞行的地势环境;S2:根据获取的环境数据、无人机自身性能约束,建立航迹规划模型,将环境表示为一个人工势场,以目标点为中心建立引力势场,以障碍物及威胁为中心建立斥力势场;S3:在建立航迹规划模型时,增加定位误差校正的函数结构体,根据所述人工势场,计算出无人机当前所受合力,并使无人机在合力作用下前进;S4:基于航迹规划模型设计强化学习差分算法;S5:将强化学习差分算法进行优化后植入到无人机智能系统中,通过基于强化学习差分算法优化后的算法进行求解,完成对无人机的航迹规划。划。划。

【技术实现步骤摘要】
一种基于强化学习差分算法的无人机动态航迹规划方法


[0001]本专利技术涉及无人机动态航迹规划
,尤其涉及一种基于强化学习差分算法的无人机动态航迹规划方法。

技术介绍

[0002]岭南地区柑橘主要种植在丘陵山区,存在种植密度大、规模小、分散性大、地形起伏多变和坡陡弯多等特点,导致传统的人工植保作业方式非常困难,采用植保无人机自主作业却具有明显的优势。
[0003]然而复杂的地形环境导致山丘气候条件不稳定,常伴有阵风、大雾以及暴雨等环境干扰,利用人工遥控方式的飞行作业或者固定路线下的自主飞行作业难以满足丘陵山区复杂环境下植保无人机对航迹规划的要求。因此研究适合丘陵山区种植特点的植保无人机动态航迹规划算法,实现植保无人机复杂环境下航迹的动态规划以及自主作业,是提高岭南地区柑橘无人机植保效率的关键环节。
[0004]作为航迹规划系统的核心部分,利用航迹规划算法寻找最优航迹,一直是研究的热门课题,丘陵山区复杂环境下的植保无人机航迹规划问题是一个高维、多约束以及强耦合的动态多约束优化问题,是一个NP

hard问题。求解一个动态多约束优化问题,最困难的任务是维持解的多样性,这要求算法具备非常快的收敛速度和计算精度。传统的进化算法更加适合解决静态航迹规划问题,当面对复杂条件的动态多约束优化航迹规划问题时很难高效处理,普遍存在收敛速度慢以及很容易陷入局部最优等问题,算法性能不尽如人意,丘陵山区复杂环境下植保无人机航迹规划问题是一个动态多约束优化问题,其实时性要求算法具有非常快的规划速度和计算精度。
[0005]当前针对动态航迹规划进行研究的学者并不多。Hidalgo等采用RRT算法结合GPU实现了在多个模拟场景环境下的无人机航迹自主实时规划。通过数值仿真实验验证了各种场景下的算法效率,该算法采用GPU进行计算,对硬件配置要求非常高。Cai等采用一种基于认知行为的优化算法实现了在3维环境下对无人机航迹的实时规划。该算法首先采用三级函数模型去设计航迹路线,将航迹目标函数设计为高、中和低三个级别,采用认知行为优化算法进行优化,实验结果表明该算法要优于粒子群和RRT算法,但是在实际飞行环境中很难对航迹路线进行级别划分。Wan等人采用DeepLabV3+深度学习模型对果树冠层图像进行分割,通过分割后的二值图像的果树冠层质心数自动提取航线,实现结果表明该算法提取航线的准确率为95%,但是该算法只能针对有冠层的果蔬进行航迹规划,具有一定的局限性。
[0006]综上所述,当前针对动态航迹规划的算法比较少,传统的规划算法以及智能优化算法在解决复杂的动态航迹规划问题时普遍存在收敛速度慢和算法很容易陷入局部最优等问题。因此设计能够高效处理动态多约束航迹规划问题的算法很有必要,为此我们提出了一种基于强化学习差分算法的无人机动态航迹规划方法。

技术实现思路

[0007]本专利技术的目的在于公开一种基于强化学习差分算法的无人机动态航迹规划方法,解决如何高效处理动态多约束航迹规划的问题。
[0008]为了达到上述目的,本专利技术采用如下技术方案:一种基于强化学习差分算法的无人机动态航迹规划方法,包括S1:获取无人机需要飞行的地势环境;S2:根据获取的环境数据、无人机自身性能约束,建立航迹规划模型,将环境表示为一个人工势场,以目标点为中心建立引力势场,以障碍物及威胁为中心建立斥力势场;S3:在建立航迹规划模型时,增加定位误差校正的函数结构体,根据所述人工势场,计算出无人机当前所受合力,并使无人机在合力作用下前进;S4:基于航迹规划模型设计强化学习差分算法;S5:将强化学习差分算法进行优化后植入到无人机智能系统中,通过基于强化学习差分算法优化后的算法进行求解,完成对无人机的航迹规划。
[0009]优选的,所述S3中增加定位误差校正的函数结构体包括以下步骤;S21:设置无人机的1个出发点和1个目的地R个水平校正点、L个垂直校正点组成的无人机航迹规划区域;S22:构建包含2+R+L点的无人机航迹规划区域,无人机在空间飞行过程中需要实时定位,其定位误差包括垂直误差和水平误差,无人机每飞行1m,垂直误差和水平误差将各增加δ个专用单位,并当到达目的点时垂直误差和水平误差均应小于θ个单位,无人机能够按照规划航迹飞行;S23:无人机在飞行过程中需要对定位误差进行校正,航迹规划区域内存在校正点可用于误差校正,当无人机到达校正点即能够根据校正点的误差校正类型进行误差校正,校正垂直和水平误差的位置可根据地形在航迹规划前确定,当垂直误差、水平误差均能及时校正,则无人机能够按照预定航线飞行,并通过若干个校正点进行误差校正后最终到达目的地。
[0010]优选的,所述S4中强化学习差分进化算法设计包括以下步骤:S31:将强化学习和差分进化算法相结合,采用 Q 学习算法或者深度 Q 学习算法作为智能体,进行智能决策;S32:采用弥散性度量、自相关性粗糙度、地形信息粗糙度以及适应度云对优化问题进行分析,将优化问题适应度地形特征信息作为强化学习智能体的状态空间;S33:将差分进化算法控制参数和变异策略的选择作为智能体的动作空间,同时设计将种群进化效率作为智能体的奖励;S34:最终实现智能体通过状态空间获取优化问题局部信息,根据状态空间信息执行动作空间相应的操作,计算执行相应动作操作后获得的奖励并将其返回给智能体。
[0011]优选的,所述S2中合力计算按照下式确定无人机的运动方向:其中,表示目标对无人机的吸引力,是目标的坐标向量,X是无人机当前位置的坐标向量;k为系数,取值为0~1;表示禁飞区对无人机的排斥力,本方案中采用现有的斥力场函数完成计算;吸引力与排斥力的合力F即是无
人机运动的方向。
[0012]优选的,所述S5中在通过基于强化学习差分算法优化后的算法进行求解,完成对无人机的航迹规划以及对航迹进行约束条件避障。
[0013]优选的,所述约束条件避障包括以下步骤:S61:输入无人机初始位置作为当前位置,m个禁飞区的中心位置, ,以及该无人机所分配的目标位置G;S62:取两个变量G1,G2,分别表示计算过程中的目标位置以及最终目标位置,并且初始化G1=G2=G;开辟A,B两个存储空间,并将无人机当前位置存入A;初始化迭代次数num=0;S63:确定无人机的运动方向,设置无人机的运动步长为L,使无人机从当前位置以确定的运动方向按照运动步长L移动,以移动后的位置来更新当前位置,并且将此时无人机的位置存入A中,迭代次数num=num+1;S64:判断num>N是否成立,如成立,则置num=0并进行步骤S65,否则返回步骤S63;其中N为预设的迭代总数;S65:判断当前位置与G1之间的距离d是否满足d<d0,其中d0为预设的距离阈值;S66:判断最后M个存入A的位置点是否都在一个预设的圆形区域内,如果是,则表明当前处于平衡位置或局部最小点,则进行跳出处理;如果不是就继续步骤S63;S67:求出A最后存入的两个点之间的直线表达式;S68:判断所述直线是否与每个圆形禁飞区相交,如果不是则返回步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习差分算法的无人机动态航迹规划方法,其特征在于,包括以下步骤:S1:获取无人机需要飞行的地势环境;S2:根据获取的环境数据、无人机自身性能约束,建立航迹规划模型,将环境表示为一个人工势场,以目标点为中心建立引力势场,以障碍物及威胁为中心建立斥力势场;S3:在建立航迹规划模型时,增加定位误差校正的函数结构体,根据所述人工势场,计算出无人机当前所受合力,并使无人机在合力作用下前进;S4:基于航迹规划模型设计强化学习差分算法;S5:将强化学习差分算法进行优化后植入到无人机智能系统中,通过基于强化学习差分算法优化后的算法进行求解,完成对无人机的航迹规划。2.根据权利要求1所述的一种基于强化学习差分算法的无人机动态航迹规划方法,其特征在于,所述S3中增加定位误差校正的函数结构体包括以下步骤:S21:设置无人机的1个出发点和1个目的地R个水平校正点、L个垂直校正点组成的无人机航迹规划区域;S22:构建包含2+R+L点的无人机航迹规划区域,无人机在空间飞行过程中需要实时定位,其定位误差包括垂直误差和水平误差,无人机每飞行1m,垂直误差和水平误差将各增加δ个专用单位,并当到达目的点时垂直误差和水平误差均应小于θ个单位,无人机能够按照规划航迹飞行;S23:无人机在飞行过程中需要对定位误差进行校正,航迹规划区域内存在校正点可用于误差校正,当无人机到达校正点即能够根据校正点的误差校正类型进行误差校正,校正垂直和水平误差的位置可根据地形在航迹规划前确定,当垂直误差、水平误差均能及时校正,则无人机能够按照预定航线飞行,并通过若干个校正点进行误差校正后最终到达目的地。3.根据权利要求1所述的一种基于强化学习差分算法的无人机动态航迹规划方法,其特征在于,所述S4中强化学习差分进化算法设计包括以下步骤:S31:将强化学习和差分进化算法相结合,采用 Q 学习算法或者深度 Q 学习算法作为智能体,进行智能决策;S32:采用弥散性度量、自相关性粗糙度、地形信息粗糙度以及适应度云对优化问题进行分析,将优化问题适应度地形特征信息作为强化学习智能体的状态空间;S33:将差分进化算法控制参数和变异策略的选择作为智能体的动作空间,同时设计将种群进化效率作为智能体的奖励;S34:最终实现智能体通过状态空间获取优化问题局部信息,根据状态空间信息执行动作空间相应的操作,计算执行相应动作操作后获得的奖励并将其返回给智能体。4.根据权利要求1所述的一种基于强化学习差分算法的无人机动态航迹规划方法,其特征在于,所述S2中合力计算按照下式确定无人机的运动方向:其中,表示目标对无人机的吸引力,是目标的坐标向量,X是无人机当前位置的坐标向量;k为系数,取值为0~1;表示禁飞区对无人机的...

【专利技术属性】
技术研发人员:谭志平唐宇黄明浩黄文轩邢诗曼黄华盛郭琪伟方明伟
申请(专利权)人:广东技术师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1