基于轻量级连续型SAC算法的无人机自主路径规划方法技术

技术编号：38209194 阅读：9 留言：0更新日期：2023-07-21 16:59

本发明专利技术公开了一种基于轻量级连续型SAC算法的无人机自主路径规划方法，其步骤为：构建无人机飞行控制数学模型；设计状态空间、动作空间以及奖励函数；搭建深度强化学习神经网络模型；生成经验数据集；利用SAC算法训练深度神经网络；以训练好的网络作为教师网络进行模型蒸馏。本发明专利技术基于深度强化学习，以SAC算法作为模型基本框架，自主设计奖励函数提高训练效率，利用模型蒸馏缩小网络规模，实现了高探索度、轻量化的无人机路径规划方法，解决了无人机有时会出现原地打转平滑度差、噪声较多情况下产生误判、训练效率和稳定性较差、以及模型响应速度慢的问题。响应速度慢的问题。响应速度慢的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于轻量级连续型SAC算法的无人机自主路径规划方法

[0001]本专利技术属于通信
，更进一步涉及无人机
中的一种基于轻量级连续型SAC(Soft Actor
‑
Critic)算法的无人机自主路径规划方法。本专利技术可应用于无人机在不同环境之中，实现移动过程中的自主决策，以满足在无人状态下能以较为平滑的轨迹高效安全到达目的范围的需求，实现无人机的自主路径规划。

技术介绍

[0002]无人机自主路径规划是一种使无人机在没有人为干预的情况下自主寻航达到目的地的技术。无人机在自主飞行过程中，由于飞行速度较快，对决策响应速度、准确性都有较高的要求，且对飞行的环境依赖性较强。传统的解决办法通常有基于遗传算法、动态贝叶斯网络、近似动态规划等技术的一些方法，而这些方法大多数都存在需要复杂建模、实时决策效率低下、需要大量数据集支撑，且计算量庞大，容易造成维度灾难等问题，而因为无人机自主路径规划的特殊性，这些问题会造成高速飞行的无人机决策迟缓、在不同应用场景下效果不稳定、模型训练成本过高等后果，给无人机自主路径规划的实际应用造成很大困难。现有的一些基于深度强化学习的解决办法多采用DQN(Deep Q
‑
network)、DDPG(Deep Deterministic Policy Gradient)、TD3(Twin Delayed Deep Deterministic policy gradient algorithm)算法作为马尔科夫决策模型，并使用多个基础动作组合来构建离散动作空间...

【技术保护点】

【技术特征摘要】
1.基于轻量级连续型SAC算法的无人机自主路径规划方法，其特征在于，利用SAC算法与优先经验回放的深度强化学习神经网络模型，基于马尔可夫决策过程自主设计状态空间、连续型动作空间以及基于势能的奖励函数，对训练好的模型进行模型蒸馏；该规划方法的步骤包括如下：步骤1，构建无人机运动方式的三自由度飞行模型；步骤2，基于无人机飞行控制数学模型和马尔可夫决策过程自主设计状态空间集合、连续型动作空间集合以及奖励函数；步骤3，构建基于SAC算法的深度强化学习神经网络：步骤3.1，搭建一个策略子网络，其结构由六个全连接层依次串联组成，将六个全连接层的节点分别设置为14，512，512，512，512，3；步骤3.2，搭建两个结构相同的动作价值评价子网络，每个子网络均由六个全连接层依次串联组成，将六个全连接层的节点分别设置为17，512，512，512，512，1；步骤3.3，搭建结构相同的状态价值评价子网络和状态价值评价目标子网络，每个子网络均由六个全连接层依次串联组成，将六个全连接层的节点分别设置为14，512，512，512，512，1；步骤3.4，将两个动作价值评价子网络并联后再分别与策略子网络、状态价值子网络相连接组成深度强化学习神经网络；步骤4，生成经验数据集：将无人机每次行动的状态空间集合、动作空间集合、获得奖励信息、执行动作后的状态空间集合组成该行动对应的四元组经验数据，存入经验池中，将经验池中至少存入的10000次行动的四元组经验数据组成经验数据集；步骤5，利用SAC算法训练深度神经网络：步骤5.1，随机初始化一个状态空间集合输入到策略子网络中，策略子网络输出动作空间集合，使无人机按照策略子网络给出的动作空间集合行动，并将由行动前无人机的状态集合、策略子网络给出的动作空间集合、奖励函数生成的奖励值、行动后无人机的状态集合组成的四元组存入经验池中，对当前存入经验池的数据赋予最高权重，并对其余数据按存入顺序衰减权重；步骤5.2，从更新后的经验池中按优先经验回放抽取128条经验数据子集合输入到深度神经网络中，输出两个动作价值、状态价值1、状态价值2、奖励值，将当前输出的两个动作价值、状态价值1代入到损失函数L1当中；将当前输出的两个动作价值中的较小值和状态价值2代入到损失函数L2当中；将当前输出的两个动作价值中的较小值代入到损失函数L3当中，利用梯度反向传播方法分别更新动作价值评价子网络、状态价值评价子网络、策略网络的权重参数，使用指数衰减平均方法更新状态价值评价目标子网络的权重参数，得到更新后的深度神经网络权重参数；步骤5.3，判断当前输出的奖励值是否收敛，若是，得到训练好的深度神经网络后执行步骤6，否则，执行步骤5.1；步骤6，对策略子网络进行模型蒸馏：步骤6.1，从经验池随机抽取10000条经验数据中的动作空间集合作为策略学生网络训练集；
步骤6.2，将策略学生网络训练集中按照每批次32条数据，分别输入到策略网络和策略学生网络，将两个网络的输出同时代入交叉熵损失函数中计算损失值，利用梯度反向传播法更新策略学生网络的权重参数，直到损失值收敛为止，得到蒸馏后的策略子网络；步骤7，规划无人机飞行路径：步骤7.1，将待规划路径的无人机当前时刻状态空间集合输入到蒸馏后的策略子网络中，输出当前时刻动作空间集合，无人机按动作空间集合行动，生成下一时刻状态空间集合和当前时刻无人机的运动路径，将当前时刻的运动路径按位置信息拼接到上一时刻生成的运动路径中；步骤7.2，判断无人机是否抵达目标地点，若是，则执行步骤8，否则，执行步骤7.3；步骤7.3，判断无人机行动次数是否达到预设上限，若是，提示无人机路径规划失败，否则，重复步骤7.1；步骤8，将无人机是否抵达目标地点拼接的路径作为规划好的无人机行动路径。2.根据权利要求1所述的基于轻量级连续型SAC算法的无人机自主路径规划方法，其特征在于，步骤1中所述的构建无人机飞行控制数学模型指的是，根据无人机的飞行控制原理，基于切向过载、法向过载、滚转角三个量，分别控制无人机的航迹偏航角、航迹俯仰角以及速度，构建无人机在三维空间中的三自由度飞行控制数学模型如下：其中，g表示无人机的重力加速度；t表示无人机飞行过程的单位时间；n
x
表示无人机的切向过载；n
z
表示无人机的法向过载；μ表示无人机的滚转角；v代表无人机的速度，满足约束条件v∈[v
min
,v
max
]，v
min
表示无人机的最小飞行速度，v
max
表示无人机的最大飞行速度；γ表示无人机的航迹俯仰角，即速度方向与水平面之间的夹角，满足约束条件γ∈[
‑

【专利技术属性】
技术研发人员：李阳阳，李浩哲，曹梦晨，沈家皓，张雪帆，刘睿娇，焦李成，尚荣华，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人