【技术实现步骤摘要】
本专利技术涉及无人机训练,具体为一种无人机深度强化学习的训练方法。
技术介绍
1、随着无人机在诸多领域的快速发展及应用,无人机自主飞行决策技术成为工业界和学术界亟待突破的研究方向之一,要求无人机具有自主避障、路径规划等功能。深度强化学习通过智能体与环境交互来优化策略,对高维度的决策问题有着很好的解决能力,广泛应用于智能决策和优化控制问题中。在无人机自主飞行决策领域,深度强化学习取得了不错效果,可以应用于具有连续状态空间和动作空间的情况,但深度强化学习如何平衡探索与利用的问题仍然存在。
2、当前无人机自主决策算法数学描述结构简单,得到的飞行轨迹波动较大,自主决策范围较广,容易造成路径不可飞,且在模拟训练时仿真方面不够贴合自然。
技术实现思路
1、为了克服现有技术的上述缺陷,本专利技术提供了无人机深度强化学习的训练方法,以解决上述
技术介绍
中存在的问题。
2、本专利技术提供如下技术方案:一种无人机深度强化学习的训练方法,其特征在于,包括:
3、构建模仿学习网络
4、本文档来自技高网...
【技术保护点】
1.一种无人机深度强化学习的训练方法,其特征在于,包括:
2.根据权利要求1所述的一种无人机深度强化学习的训练方法,其特征在于:所述模仿学习网络输入的是经过处理后大小为64x64像素的图像,输出的是四旋翼无人机控制信息,包括预测转向角、预测驱动信息和预测刹车信息。
3.根据权利要求1所述的一种无人机深度强化学习的训练方法,其特征在于:所述模仿学习网络包括五个卷积层和四个全连接层,其中卷积层用于提取特征,全连接层用于转向角、电机和姿态控制的预测;所述5个卷积层使用了5x5卷积核,其中还加入了最大池化层和Dropout层来优化网络;所述五个卷积层与
...【技术特征摘要】
1.一种无人机深度强化学习的训练方法,其特征在于,包括:
2.根据权利要求1所述的一种无人机深度强化学习的训练方法,其特征在于:所述模仿学习网络输入的是经过处理后大小为64x64像素的图像,输出的是四旋翼无人机控制信息,包括预测转向角、预测驱动信息和预测刹车信息。
3.根据权利要求1所述的一种无人机深度强化学习的训练方法,其特征在于:所述模仿学习网络包括五个卷积层和四个全连接层,其中卷积层用于提取特征,全连接层用于转向角、电机和姿态控制的预测;所述5个卷积层使用了5x5卷积核,其中还加入了最大池化层和dropout层来优化网络;所述五个卷积层与前三个全连接层均使用relu激活函数,最后一个全连接层为输出层,其包括三个全连接网络,分别使用tanh,sigmoid和sigmoid激活函数,对应输出的转向、加速和刹车3个动作。
4.根据权利要求1所述的一种无人机深度强化学习的训练方法,其特征在于:训练所述模仿学习网络,利用仿真驾驶模拟器prepar3d采集人为操作数据,以人为操作步骤为无人机模拟飞行底层飞行逻辑,通过模拟训练进行不断优化。
5.根据权利要求4所述的一种无人机深度强化学习的训练方法,其特征在于:在模拟过程中,在模拟场景中随机生成障碍物,障碍物由上到下分为若干部分,每部分大小、形状逐渐变化,障碍物数量由模拟飞行次数...
【专利技术属性】
技术研发人员:雷江锋,陈斯涵,艾博,张雷,潘泉,
申请(专利权)人:爱生无人机试验测试靖边有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。