一种低空无人机避障飞行的训练方法技术

技术编号：41404729 阅读：12 留言：0更新日期：2024-05-20 19:30

本发明专利技术公开了一种低空无人机避障飞行的训练方法，属于无人机避障技术领域，包括如下步骤：构建三维避障场景；将无人机设置于三维避障场景中，利用多经验池深度确定策略梯度模型进行低空无人机飞行训练，完成低空无人机避障飞行的训练。本发明专利技术通过将不同的飞行经验数据分类存储至不同的经验池中，实现了对于飞行经验数据的利用效率的提高，使得无人机能够更好地学习成功的避障飞行到达策略，并尽量避免失败的策略，从而解决了无人机避障飞行训练速度慢和效果不足的问题；本发明专利技术还基于不同等级飞行区域设置了奖励函数，加快了算法收敛速度，从而解决了算法收敛速度慢导致训练速度慢的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于无人机避障，尤其涉及一种低空无人机避障飞行的训练方法。

技术介绍

1、随着无人机技术的迅速发展，无人机已广泛应用于农业、航拍、应急救援、环境监测等领域。然而，无人机在复杂环境中的自主飞行和避障能力仍存在不足。目前的无人机避障方法大致能够分为：数学优化方法、传统势场和导航函数结合的避障方法，以及基于机器学习的避障方法。

2、目前无人机避障算法的研究热点聚焦于机器学习的避障算法，通过装备的摄像机进行视觉检测障碍物，并估算与障碍物的距离，然后进行规避。基于机器学习延伸的强化学习和深度强化学习已广泛应用于解决无人机避障问题，其通常结合单目视觉与神经网络模型，但当无人机处于连续状态空间与动作空间场景时，则会存在模型离线学习训练效率低、收敛速度慢和避障效果不足等问题。

技术实现思路

1、针对现有技术中的上述不足，本专利技术提供的一种低空无人机避障飞行的训练方法，通过将不同的飞行经验数据分类存储至不同的经验池中，实现了对于飞行经验数据的利用效率的提高，使得无人机能够更好地学习成功的避障飞行到达策略，并尽量避免失败的策略，本专利技术还基于不同等级飞行区域设置了奖励函数，加快了算法收敛速度，从而解决了低空无人机避障飞行训练速度慢和效果不足的问题。

2、为了达到上述专利技术目的，本专利技术采用的技术方案为：

3、本专利技术提供的一种低空无人机避障飞行的训练方法，包括如下步骤：

4、s1、构建三维避障场景；

5、s2、将无人机设置

6、本专利技术的有益效果为：本专利技术提供的一种低空无人机避障飞行的方法，通过设置可定制的虚拟环境，为无人机的避障飞行训练提供了具有障碍物的三维避障场景，本专利技术基于多经验池深度确定策略梯度模型对设置于三维避障场景中的无人机进行训练，通过到达飞行经验池和未到达飞行经验池的设置，提高了对于飞行经验数据的利用效率，通过奖励函数的设置也提高了无人机避障飞行训练的训练速度和效果。

7、进一步地，所述三维避障场景包括若干个等级的飞行区域，除初始等级飞行区域外，每个等级的飞行区域分别对应设置有对应等级的障碍物，通过该对应等级的障碍物，则进入该等级的飞行区域。

8、采用上述进一步方案的有益效果为：通过对三维避障场景中设置障碍物，为无人机避障飞行训练提供了环境基础，并通过不同等级障碍物的划分，以及不同等级飞行区域的划分，为构建奖励函数，以优化无人机飞行策略，以及加快无人机训练速度提供了基础。

9、进一步地，所述三维避障场景为整体空间宽度为20m，高度为20m，长度为70m的长方体状空间，共设置5个等级的飞行区域，各等级飞行区域中对应的障碍物沿三维避障场景的长度方向均匀间隔分布，其中，第一等级的障碍物为沿宽度方向设置的两个横梁，第二等级的障碍物为沿宽度方向设置的具有两组共四个开孔的墙，第三等级的障碍物为沿宽度方向设置的两根圆柱体，第四等级的障碍物为一个斜柱体。

10、采用上述进一步方案的有益效果为：本专利技术提供一种长方体状的三维避障场景，基于沿长度方向均匀间隔设置的障碍物，将三维避障场景划分为了五个等级的飞行区域，基于不同等级障碍物的设置，丰富了无人机的避障条件，能够实现通过无人机避障飞行训练，充分提升无人机面对不同障碍物时的避障飞行能力。

11、进一步地，所述s2包括如下步骤：

12、s21、设置飞行训练经验缓冲区，以将飞行经验数据分类存储至到达飞行经验池和未到达飞行经验池；

13、s22、构建无人机避障飞行的多经验池深度确定策略梯度模型，并初始化多经验池深度确定策略梯度模型的行动者网络参数、评论家网络参数、行动者目标网络参数和评论家目标网络参数；

14、s23、重复令无人机在单次飞行训练时长内从初始位置自主探索飞行，得到每次无人机低空避障训练对应的飞行经验数据、训练目标q值和奖励结果；

15、s24、利用奖励结果优化无人机在训练时的动作，从而使训练目标q值不断增大，直至稳定趋近于期望的训练目标q值，完成低空无人机避障飞行训练。

16、采用上述进一步方案的有益效果为：本专利技术提供利用多经验池深度确定策略梯度模型对设置于三维避障场景中的无人机进行避障飞行训练的方法，通过到达飞行经验池和未到达飞行经验池的设置，为无人机离线进行避障飞行训练，以及更加充分的学习成功的避障飞行抵达目标位置的经验，以及避免失败的飞行经验提供基础，本专利技术通过奖励函数计算了无人机单次避障飞行训练的奖励结果，通过奖励结果能够优化无人机飞行训练时的动作决策选择，从而使训练目标q值逐渐增大，并优化行动者评论家网络模型中的网络参数，提升低空无人机避障飞行的训练速度和训练效果。

17、进一步地，所述s23包括如下步骤：

18、s231、设置无人机避障飞行训练次数阈值和无人机单次飞行训练时长；

19、s232、将无人机设置于初始等级飞行区域中的任意位置，将该位置作为初始位置，并初始化无人机状态数据；

20、s233、根据t时刻无人机的状态和行动者网络参数，选择t时刻无人机的动作，并执行t时刻无人机的动作，得到t时刻无人机的奖惩结果和t+1时刻无人机的状态，直至无人机抵达最高等级飞行区域的目标位置或达到无人机单次飞行训练时长，完成单次无人机避障飞行训练；

21、s234、根据奖励函数，计算得到单次无人机避障飞行训练的奖励结果；

22、s235、获取无人机避障飞行训练的训练目标q值，并更新多经验池深度确定策略梯度模型；

23、s236、判断单次无人机避障飞行训练中无人机是否抵达最高等级飞行区域的目标位置，若是则进入s237，否则进入s238；

24、s237、随机获取单次无人机避障飞行训练中若干时刻下的无人机状态数据，并作为飞行经验数据存储至到达飞行经验池，进入s239；

25、s238、随机获取单次无人机避障飞行训练中若干时刻下的无人机状态数据，并作为飞行经验数据存储至未达到飞行经验池，进入s239；

26、s239、判断无人机避障飞行训练的总次数是否达到无人机避障飞行训练次数阈值，若是则进入s24，否则返回s231。

27、采用上述进一步方案的有益效果为：本专利技术提供在三维避障场景中多次进行无人机避障飞行训练的具体方法，通过每一次无人机避障飞行训练的奖励结果，能够优化无人机面对障碍物进行避障和向目标位置飞行的动作策略选择，再通过获取每一次避障飞行训练的训练目标q值，能够对多经验池深度确定策略梯度模型中的行动者网络、评论家网络、行动者目标网络和评论家目标网络进行网络参数更新，从而提升无人机避障飞行训练的训练速度、训练效率和训练效果。

28、进一步地，所述无人机状态数据为（st，at，rt，st+1），其中，st表示t时刻无人机的状态，at表示t时刻无人机的动本文档来自技高网...

【技术保护点】

1.一种低空无人机避障飞行的训练方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的低空无人机避障飞行的训练方法，其特征在于，所述三维避障场景包括若干个等级的飞行区域，除初始等级飞行区域外，每个等级的飞行区域分别对应设置有对应等级的障碍物，通过该对应等级的障碍物，则进入该等级的飞行区域。

3.根据权利要求2所述的低空无人机避障飞行的训练方法，其特征在于，所述三维避障场景为整体空间宽度为20m，高度为20m，长度为70m的长方体状空间，共设置5个等级的飞行区域，各等级飞行区域中对应的障碍物沿三维避障场景的长度方向均匀间隔分布，其中，第一等级的障碍物为沿宽度方向设置的两个横梁，第二等级的障碍物为沿宽度方向设置的具有两组共四个开孔的墙，第三等级的障碍物为沿宽度方向设置的两根圆柱体，第四等级的障碍物为一个斜柱体。

4.根据权利要求2所述的低空无人机避障飞行的训练方法，其特征在于，所述S2包括如下步骤：

5.根据权利要求4所述的低空无人机避障飞行的训练方法，其特征在于，所述S23包括如下步骤：

6.根据权利要求5所述的低空无

7.根据权利要求6所述的低空无人机避障飞行的训练方法，其特征在于，所述奖励结果的计算表达式如下：

8.根据权利要求6所述的低空无人机避障飞行的训练方法，其特征在于，所述S235包括如下步骤：

9.根据权利要求5所述的低空无人机避障飞行的训练方法，其特征在于，所述飞行训练经验缓冲区中的到达飞行经验池和未到达飞行经验池均能提供飞行经验数据，以进行离线无人机避障飞行训练，从而优化行动者目标网络参数和评论家目标网络参数。

...

【技术特征摘要】

1.一种低空无人机避障飞行的训练方法，其特征在于，包括如下步骤：

4.根据权利要求2所述的低空无人机避障飞行的训练方法，其特征在于，所述s2包括如下步骤：

5.根据权利要求4所述的低空无人机避障飞行...

【专利技术属性】
技术研发人员：程擎，曾嘉诚，王德超，何汶键，华翔，
申请(专利权)人：中国民用航空飞行学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人