一种基于深度强化学习的无人机自主导航及避障方法技术

技术编号：39733587 阅读：7 留言：0更新日期：2023-12-17 23:36

本发明专利技术提供一种基于深度强化学习的无人机自主导航及避障方法，涉及无人机自主导航领域，所述方法以无人机的观测为输入，在

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的无人机自主导航及避障方法

[0001]本专利技术涉及无人机自主导航领域，特别涉及一种基于深度强化学习的无人机自主导航及避障方法
。

技术介绍

[0002]随着无人技术的快速发展，无人机的相关研究也逐渐变得热门
。
与载人飞行器相比，无人机
(Unmanned Aerial Vehicle
，
UAV)
由于其具有体积较小
、
造价成本低
、
零伤亡和灵活性高等特点而被广泛的运用在军事领域和民用领域
。
在军事领域，无人机在目标侦察
、
地形测绘
、
精准打击
、
通信干扰
、
通信转发以及其他战场态势感知场景下得到了广泛的应用；在民用领域，随着消费级无人机的普及，无人机的应用场景十分丰富，如灾难救援
、
航空拍摄
、
新闻报道
、
农业
、
植保和病虫害检测
、
电力巡检
、
快递运输等
。
无人机执行这些任务的基础，是其可以在复杂环境下，快速且安全地避开障碍物，抵达指定目标点，而这一过程的自主化，可以极大程度地降低成本，提高任务执行效率
。
[0003]现有技术中，许多方法使用传统的路径规划算法
(
如
A*
算法，
RRT
算法，人工势场法
)<...

【技术保护点】

【技术特征摘要】
1.
一种基于深度强化学习的无人机自主导航及避障方法，其特征在于，所述方法包括：从无人机的各项检测指标中提取出观测特征并按照预设的步数
N
构造所述无人机的历史轨迹数据；将所述历史轨迹数据输入至神经网络模型的
Actor
网络中，获得所述无人机的时序特征，其中，所述神经网络模型包括
Actor
网络
、Critic
网络和全连接网络；将所述观测特征输入到决策偏移方法模块中，输出加权后的观测特征；将所述加权后的观测特征和所述时序特征进行拼接后输入到所述全连接网络中，所述全连接网络输出所述无人机的动作向量；将所述历史轨迹数据
、
当前观测特征和所述动作向量拼接后输入到所述
Critic
网络中，所述
Critic
网络输出对“观测特征
——
动作向量”对的评分；所述
Actor
网络使用所述评分的相反数作为损失函数进行梯度下降，完成梯度下降后的所述
Actor
网络输出三轴加速度，所述三轴加速度用于控制无人机的飞行
。2.
根据权利要求1所述的一种基于深度强化学习的无人机自主导航及避障方法，其特征在于，所述历史轨迹数据包括所述无人机的坐标信息
、
所述无人机的三轴分速度
、
所述无人机的偏航角度
、
所述无人机与目标点的距离和距离传感器的返回值
。3.
根据权利要求1所述的一种基于深度强化学习的无人机自主导航及避障方法，其特征在于，所述观测特征包括所述当前观测特征前
n
个时刻的观测特征及其对应动作向量和所述当前观测特征
。4.
根据权利要求1所述的一种基于深度强化学习的无人机自主导航及避障方法，其特征在于，基于
TD3
算法对所述神经网络模型进行训练
。5.
根据权利要求1所述的一种基于深度强化学习的无人机自主导航及避障方法，其特征在于，所述
Actor
网络的损失函数为所述
Critic
网络输出的所述评分，所述
Critic
网络的损失函数为
MSE。6.
根据权利要求1所述的一种基于深度强化学习的无人机自主导航及避障方法，其特征在于，所述
Actor
网络和所述
Critic
网络均使用
Adam
优化器进行梯度下降训练
。7.
根据权利要求1所述的一种基于深度强化学习的无人机自主导...

【专利技术属性】
技术研发人员：殷永峰，王哲涛，宿庆冉，杨溢龙，原仓周，李海峰，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人