基于轻量级连续型SAC算法的无人机自主路径规划方法技术

技术编号:38209194 阅读:9 留言:0更新日期:2023-07-21 16:59
本发明专利技术公开了一种基于轻量级连续型SAC算法的无人机自主路径规划方法,其步骤为:构建无人机飞行控制数学模型;设计状态空间、动作空间以及奖励函数;搭建深度强化学习神经网络模型;生成经验数据集;利用SAC算法训练深度神经网络;以训练好的网络作为教师网络进行模型蒸馏。本发明专利技术基于深度强化学习,以SAC算法作为模型基本框架,自主设计奖励函数提高训练效率,利用模型蒸馏缩小网络规模,实现了高探索度、轻量化的无人机路径规划方法,解决了无人机有时会出现原地打转平滑度差、噪声较多情况下产生误判、训练效率和稳定性较差、以及模型响应速度慢的问题。响应速度慢的问题。响应速度慢的问题。

【技术实现步骤摘要】
基于轻量级连续型SAC算法的无人机自主路径规划方法


[0001]本专利技术属于通信
,更进一步涉及无人机
中的一种基于轻量级连续型SAC(Soft Actor

Critic)算法的无人机自主路径规划方法。本专利技术可应用于无人机在不同环境之中,实现移动过程中的自主决策,以满足在无人状态下能以较为平滑的轨迹高效安全到达目的范围的需求,实现无人机的自主路径规划。

技术介绍

[0002]无人机自主路径规划是一种使无人机在没有人为干预的情况下自主寻航达到目的地的技术。无人机在自主飞行过程中,由于飞行速度较快,对决策响应速度、准确性都有较高的要求,且对飞行的环境依赖性较强。传统的解决办法通常有基于遗传算法、动态贝叶斯网络、近似动态规划等技术的一些方法,而这些方法大多数都存在需要复杂建模、实时决策效率低下、需要大量数据集支撑,且计算量庞大,容易造成维度灾难等问题,而因为无人机自主路径规划的特殊性,这些问题会造成高速飞行的无人机决策迟缓、在不同应用场景下效果不稳定、模型训练成本过高等后果,给无人机自主路径规划的实际应用造成很大困难。现有的一些基于深度强化学习的解决办法多采用DQN(Deep Q

network)、DDPG(Deep Deterministic Policy Gradient)、TD3(Twin Delayed Deep Deterministic policy gradient algorithm)算法作为马尔科夫决策模型,并使用多个基础动作组合来构建离散动作空间,而DQN和DDPG在计算目标值时均使用同一个Q网络进行动作的选择和评估,会在存在噪声和误差情况下产生偏高的值估计,通常称为过估计Overestimation问题,这对无人机的飞行决策造成了很大的影响。而TD3算法虽然改进了二者的过估计问题,但在无人机实时决策的任务场景中,训练效率和稳定性仍然欠佳。另外,使用离散动作空间,也使得无人机的自主飞行路径不够平滑,容易出现原地打转的情况。
[0003]Jinwen Hu等人在其发表的论文“Autonomous Maneuver Decision Making of Dual

UA V Cooperative Air Combat Based on Deep Reinforcement Learning”(Hu.J,Wang.L,Hu.T,Guo.C,Wang.Y.Autonomous Maneuver Decision Making of Dual

UAV Cooperative Air Combat Based on Deep Reinforcement Learning.Electronics 2022,11,467.)中公开的一种基于深度强化学习的无人机空战自主决策中采用了一种自主路径规划方法。该方法设计了十五种无人机典型动作指令,使用离散动作空间对飞机动作进行建模,并使用DDPG算法作为马尔可夫决策模型,来生成无人机的路径规划策略。该方法存在的不足之处是,第一,DDPG算法由于其特性存在过估计问题,会在噪声较多情况下产生误判,训练效率和稳定性较差;第二,使用了离散的动作空间,由于离散的动作在控制过程中不够灵活,无人机只能以多种固定姿态进行飞行,造成了无人机飞行路径不够平滑,这又导致了无人机有时会出现原地打转的情况。
[0004]中国人民解放军国防科技大学在其申请的专利文献“基于深度强化学习TD3算法的无人机格斗自主决策方法”(申请号:202210264539.2申请日:2022.03.17申请公布号:CN 114706418 A)中公开的一种基于深度强化学习TD3算法的无人机格斗自主决策中采用了一
种自主路径规划方法。该方法的具体步骤是,第一步,建立无人机运动模型;第二步,根据所述无人机运动模型,基于马尔可夫决策过程建立无人机空中格斗模型,使用包括状态空间、动作空间、奖励函数和折扣因子的四元组表示,其中无人机运动模型表示无人机空中格斗模型中的状态转移函数;第三步,根据无人机空中格斗模型,基于TD3算法训练无人机学习机动策略。该方法存在的不足之处是,算法训练过程不够稳定,训练效率欠佳,由于TD3算法采用了更复杂的网络模型结构,模型推理速度慢导致无人机决策过程中响应速度较慢。

技术实现思路

[0005]本专利技术的目的在于针对上述现有技术的不足,提出一种基于轻量级连续型SAC算法的无人机自主路径规划方法,用于解决现有技术中存在的无人机有时会出现原地打转平滑度差、在噪声较多情况下产生误判、训练效率和稳定性较差、以及模型响应速度慢的问题。
[0006]实现本专利技术目的的具体思路是:在处理无人机实时路径规划问题时本专利技术对无人机运动方式进行三自由度飞行模型建模,模型定义不同动作下无人机将如何实时在三维空间下进行位移。然后对无人机的环境进行建模,其中包括:无人机的状态空间、动作空间和奖励函数。状态空间由无人机在三维坐标下的位置信息、速度、终点位置坐标信息、安全距离等构成;建立基于连续动作的动作空间驱动无人机飞行,动作空间由切向过载、法向过载及滚转角三个元素构成,使对无人机的控制更加灵活,克服了现有技术中有时会出现原地打转平滑度差的问题;设计主要由距离、角度、高度三个因素构成的奖励函数,将距离作为主线回报,角度和高度作为辅助回报,并采用了基于势能的奖励机制,令无人机在飞行过程中奖励更加稠密,能更高效的引导无人机策略网络收敛。构建基于SAC算法的深度强化学习神经网络,相较于DQN和DDPG算法,SAC算法使用了两个Q网络并取其中的较小值,克服了现有技术中存在的噪声较多情况下产生误判的问题。相较于TD3算法,SAC算法的损失函数中引入了最大熵,大大增加了模型的探索能力,有效提搞了模型训练效率。在SAC算法的基础上还添加了优先经验回放机制,给每条加入经验池的数据赋予权重以提高训练效率。本专利技术通过设计基于势能的奖励函数、构建SAC深度强化学习神经网络以及引入优先经验回放机制,克服了现有技术中训练效率和稳定性较差的问题。最后,策略网络进行模型蒸馏操作,训练一个较小的学生网络来对模型进行轻量化,克服了现有技术中存在的模型响应速度慢的问题。
[0007]为实现上述目的,本专利技术采取的技术方案包括如下步骤:
[0008]步骤1,构建无人机运动方式的三自由度飞行模型;
[0009]步骤2,基于无人机飞行控制数学模型和马尔可夫决策过程自主设计状态空间集合、连续型动作空间集合以及奖励函数;
[0010]步骤3,构建基于SAC算法的深度强化学习神经网络:
[0011]步骤3.1,搭建一个策略子网络,其结构由六个全连接层依次串联组成,将六个全连接层的节点分别设置为14,512,512,512,512,3;
[0012]步骤3.2,搭建两个结构相同的动作价值评价子网络,每个子网络均由六个全连接层依次串联组成,将六个全连接层的节点分别设置为17,512,512,512,512,1;
[0013]步骤3.3本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于轻量级连续型SAC算法的无人机自主路径规划方法,其特征在于,利用SAC算法与优先经验回放的深度强化学习神经网络模型,基于马尔可夫决策过程自主设计状态空间、连续型动作空间以及基于势能的奖励函数,对训练好的模型进行模型蒸馏;该规划方法的步骤包括如下:步骤1,构建无人机运动方式的三自由度飞行模型;步骤2,基于无人机飞行控制数学模型和马尔可夫决策过程自主设计状态空间集合、连续型动作空间集合以及奖励函数;步骤3,构建基于SAC算法的深度强化学习神经网络:步骤3.1,搭建一个策略子网络,其结构由六个全连接层依次串联组成,将六个全连接层的节点分别设置为14,512,512,512,512,3;步骤3.2,搭建两个结构相同的动作价值评价子网络,每个子网络均由六个全连接层依次串联组成,将六个全连接层的节点分别设置为17,512,512,512,512,1;步骤3.3,搭建结构相同的状态价值评价子网络和状态价值评价目标子网络,每个子网络均由六个全连接层依次串联组成,将六个全连接层的节点分别设置为14,512,512,512,512,1;步骤3.4,将两个动作价值评价子网络并联后再分别与策略子网络、状态价值子网络相连接组成深度强化学习神经网络;步骤4,生成经验数据集:将无人机每次行动的状态空间集合、动作空间集合、获得奖励信息、执行动作后的状态空间集合组成该行动对应的四元组经验数据,存入经验池中,将经验池中至少存入的10000次行动的四元组经验数据组成经验数据集;步骤5,利用SAC算法训练深度神经网络:步骤5.1,随机初始化一个状态空间集合输入到策略子网络中,策略子网络输出动作空间集合,使无人机按照策略子网络给出的动作空间集合行动,并将由行动前无人机的状态集合、策略子网络给出的动作空间集合、奖励函数生成的奖励值、行动后无人机的状态集合组成的四元组存入经验池中,对当前存入经验池的数据赋予最高权重,并对其余数据按存入顺序衰减权重;步骤5.2,从更新后的经验池中按优先经验回放抽取128条经验数据子集合输入到深度神经网络中,输出两个动作价值、状态价值1、状态价值2、奖励值,将当前输出的两个动作价值、状态价值1代入到损失函数L1当中;将当前输出的两个动作价值中的较小值和状态价值2代入到损失函数L2当中;将当前输出的两个动作价值中的较小值代入到损失函数L3当中,利用梯度反向传播方法分别更新动作价值评价子网络、状态价值评价子网络、策略网络的权重参数,使用指数衰减平均方法更新状态价值评价目标子网络的权重参数,得到更新后的深度神经网络权重参数;步骤5.3,判断当前输出的奖励值是否收敛,若是,得到训练好的深度神经网络后执行步骤6,否则,执行步骤5.1;步骤6,对策略子网络进行模型蒸馏:步骤6.1,从经验池随机抽取10000条经验数据中的动作空间集合作为策略学生网络训练集;
步骤6.2,将策略学生网络训练集中按照每批次32条数据,分别输入到策略网络和策略学生网络,将两个网络的输出同时代入交叉熵损失函数中计算损失值,利用梯度反向传播法更新策略学生网络的权重参数,直到损失值收敛为止,得到蒸馏后的策略子网络;步骤7,规划无人机飞行路径:步骤7.1,将待规划路径的无人机当前时刻状态空间集合输入到蒸馏后的策略子网络中,输出当前时刻动作空间集合,无人机按动作空间集合行动,生成下一时刻状态空间集合和当前时刻无人机的运动路径,将当前时刻的运动路径按位置信息拼接到上一时刻生成的运动路径中;步骤7.2,判断无人机是否抵达目标地点,若是,则执行步骤8,否则,执行步骤7.3;步骤7.3,判断无人机行动次数是否达到预设上限,若是,提示无人机路径规划失败,否则,重复步骤7.1;步骤8,将无人机是否抵达目标地点拼接的路径作为规划好的无人机行动路径。2.根据权利要求1所述的基于轻量级连续型SAC算法的无人机自主路径规划方法,其特征在于,步骤1中所述的构建无人机飞行控制数学模型指的是,根据无人机的飞行控制原理,基于切向过载、法向过载、滚转角三个量,分别控制无人机的航迹偏航角、航迹俯仰角以及速度,构建无人机在三维空间中的三自由度飞行控制数学模型如下:其中,g表示无人机的重力加速度;t表示无人机飞行过程的单位时间;n
x
表示无人机的切向过载;n
z
表示无人机的法向过载;μ表示无人机的滚转角;v代表无人机的速度,满足约束条件v∈[v
min
,v
max
],v
min
表示无人机的最小飞行速度,v
max
表示无人机的最大飞行速度;γ表示无人机的航迹俯仰角,即速度方向与水平面之间的夹角,满足约束条件γ∈[

【专利技术属性】
技术研发人员:李阳阳李浩哲曹梦晨沈家皓张雪帆刘睿娇焦李成尚荣华
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1