System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于强化学习的海上无人机编队变粒度协同搜救方法技术_技高网

一种基于强化学习的海上无人机编队变粒度协同搜救方法技术

技术编号:40197265 阅读:9 留言:0更新日期:2024-01-27 00:00
本发明专利技术公开了一种基于强化学习的海上无人机编队变粒度协同搜救方法,属于海洋环境下搜救技术领域,包括如下步骤:步骤1、初始化海面目标搜救作业区域范围,并在作业区域内部署多架无人机,形成无人机集群;步骤2、无人机集群使用协同割草机算法执行粗粒度搜救作业,并使用数字信息素记录每个区域单元格的目标存在概率;步骤3、使用改进的数字信息素传播公式,捕捉目标在海面上的运动,并使用数字信息素更新公式实现信息融合;步骤4、无人机集群执行细粒度搜救作业,并执行无人机集群变粒度搜救编队协同算法。本发明专利技术可以适用于特征稳定的海面环境下目标快速搜救定位、多无人机协同作业的需求。

【技术实现步骤摘要】

本专利技术属于海洋环境搜救定位,具体涉及一种基于强化学习的海上无人机编队变粒度协同搜救方法


技术介绍

1、当前,随着人类社会对海洋资源的开发和利用的逐渐深入,人们在海洋上的经济活动日益活跃。海上意外搜救定位是一个重要的研究课题,搜救问题需要考虑特定的环境特征,因此海上搜救定位需要分析和利用好海洋环境的特征。与城市地面等环境的搜救定位任务相比,海上搜救定位的工作环境具有相对稳定的特征。同时,无人机(unmannedaerial vehicles,uav)具有克服恶劣环境和灵活机动的优点,可以在执行任务的时候随时改变飞行高度,以使传感器在不同的高度获得不同的信息粒度,并进行信息融合。综上所述,可将海上搜救问题视为一个信息路径规划(informative path planning,ipp)问题。

2、在海上搜救定位任务中,无人机通常装载一个传感器,收集各个区域单元格感兴趣目标(objects of interest,ooi)的目标检测概率(probability of detection,pod)。目前已有一些通过改变无人机飞行高度实现多粒度信息收集的方法,但仍未有无人机自适应调整飞行高度协同搜救的机制。目前虽有一些多智能体的ipp问题研究,但通常的方法是划分沃洛诺伊图,为每个智能体分配工作区域,没有利用多个智能体之间的协同方法和信息融合。

3、本专利技术研究了无人机对海面目标进行多粒度搜救的协同问题,将协同问题建模为部分可观测的马尔可夫决策过程(partially observable markov decision process,pomdp),并使用多智能体深度确定性策略梯度(multi-agent deep deterministic policygradient,maddpg)方法训练无人机集群。因而,无人机可以自适应调整其飞行高度,以获得期望的数字信息素强度,并在多个飞行高度对感兴趣目标进行协同搜索,以实现信息融合。当检测到感兴趣目标时,使用数字信息素来记录目标存在概率,另外,改进了数字信息素的传播公式,以捕捉感兴趣目标在海面上可能的运动变化。


技术实现思路

1、为解决在意外场景下海上无人机集群对海面目标的快速搜救定位问题,本专利技术提出了一种基于强化学习的海上无人机编队变粒度协同搜救方法。本专利技术采用多智能体深度确定性策略梯度的强化学习算法实时调整每一架无人机的移动方向,使无人机集群在搜救的过程中兼顾编队协同和目标趋近,以实现对海面目标的快速搜救定位。

2、本专利技术的技术方案如下:

3、一种基于强化学习的海上无人机编队变粒度协同搜救方法,包括如下步骤:

4、步骤1、初始化海面目标搜救作业区域范围,并在作业区域内部署多架无人机,形成无人机集群;

5、步骤2、无人机集群使用协同割草机算法执行粗粒度搜救作业,并使用数字信息素记录每个单元格的目标存在概率,将目标存在概率大于零的单元格记录为感兴趣区域;

6、步骤3、使用改进的数字信息素传播公式,捕捉目标在海面上的运动,并使用数字信息素更新公式实现信息融合;

7、步骤4、无人机集群基于变粒度搜救编队协同算法执行细粒度搜救作业,若未搜寻到海面目标,则重复执行步骤3-步骤4,直到将作业区域内所有海面目标搜救定位完毕。

8、进一步地,所述步骤1中,将需要搜救的区域设定为一个矩形区域,该矩形区域为初始化的海上多无人机协同搜救作业区域;将该作业区域离散化为若干个单元格,将第个单元格记为,一个单元格对应一个航路点;在作业区域上空部署架无人机,每架无人机使用朝向向下的摄像机作为捕捉目标的传感器;将第架无人机的飞行高度记为,当前时刻第架无人机在海面上的探测半径为;初始化作业区域内共有个感兴趣目标,将第个感兴趣目标的运动过程通过随机马尔可夫状态转移模型表示为,其中表示第个感兴趣目标在时刻的海面位置,表示第个感兴趣目标在时刻的海面位置,是第个感兴趣目标运动过程的一个非线性函数,是第个感兴趣目标在时刻的过程噪声。

9、进一步地,所述步骤2中,协同割草机算法是指多架无人机根据各自的探测半径来回并排扫描作业区域的一种路径覆盖算法;记录感兴趣区域的具体过程为:

10、步骤2.1、将作业区域内所有单元格的数字信息素值初始化为0;

11、步骤2.2、每一架无人机通过摄像机的深度感知模型计算每个单元格的目标存在概率,并使用数字信息素统一记录;深度感知模型计算第个单元格的目标存在概率的具体公式为:

12、          (1);

13、其中,为时间序列;是伯努利随机变量,表示目标检测概率;为检测的感知位置坐标,和分别为感知位置的横坐标和纵坐标;为深度感知模型中的计算增量;为位置单元格的目标存在概率;为中间变量,通过计算得出,为图像平面在方向上的宽度;为中间变量,通过计算得出,为图像平面在方向上的宽度;和均是超参数;为感兴趣目标在图像中的横坐标,为感兴趣目标在图像中的纵坐标;函数是解释摄像机检测模型深度效应的深度系数,定义如下:

14、                      (2);

15、其中,为感知位置与摄像机的距离;和均是超参数;和分别表示摄像机检测到感兴趣目标的最短距离和最长距离;

16、根据当前搜救阶段,每一架无人机的飞行高度根据期望数字信息素强度进行自适应调整;的值初始化为0.5;无人机飞行高度的计算公式为:

17、                                 (5);

18、其中,为摄像机传感器尺寸;为摄像机镜头焦距;为方程自变量,通过求解方程得出,其中表示式子;如果方程自变量具有一个以上的解,采用方程自变量的最大值作为方程的解;

19、步骤2.3、将目标存在概率大于零的单元格记录为感兴趣区域,并将该单元格的数字信息素值更新为0.5。

20、进一步地,所述步骤3中,改进的数字信息素传播公式具体如下:

21、          (6);

22、其中,表示位置为的单元格在时刻至时刻的扩散;和分别为单元格位置的横坐标和纵坐标;为扩散的数字信息素邻居传播因子;是邻居单元格的数量,由单元格的传播距离决定,具体计算公式为;为数字信息素强度;表示位置为的邻居单元格在时刻的数字信息素强度;为单元格在横向方向扩散的增减量,为单元格在纵向方向扩散的增减量;

23、数字信息素更新公式具体如下:

24、  (7);

25、其中,表示位置为的单元格在时刻的数字信息素强度;为蒸发因子;为传播因子;为位置为的单元格在时刻的数字信息素强度;表示由无人机采集得到的位置为的单元格在时刻至时刻的额外的数字信息素。

26、进一步地,所述步骤4中,无人机集群执行细粒度搜救作业时,飞行高度需要匹配的数字信息素强度的值是当前单元格的数字信息素强度加上0.5,根据步骤2的方法得到无人机自适应调整的飞本文档来自技高网...

【技术保护点】

1.一种基于强化学习的海上无人机编队变粒度协同搜救方法,其特征在于,包括如下步骤:

2.根据权利要求1所述基于强化学习的海上无人机编队变粒度协同搜救方法,其特征在于,所述步骤1中,将需要搜救的区域设定为一个矩形区域,该矩形区域为初始化的海上多无人机协同搜救作业区域;将该作业区域离散化为若干个单元格,将第个单元格记为,一个单元格对应一个航路点;在作业区域上空部署架无人机,每架无人机使用朝向向下的摄像机作为捕捉目标的传感器;将第架无人机的飞行高度记为,当前时刻第架无人机在海面上的探测半径为;初始化作业区域内共有个感兴趣目标,将第个感兴趣目标的运动过程通过随机马尔可夫状态转移模型表示为,其中表示第个感兴趣目标在时刻的海面位置,表示第个感兴趣目标在时刻的海面位置,是第个感兴趣目标运动过程的一个非线性函数,是第个感兴趣目标在时刻的过程噪声。

3.根据权利要求2所述基于强化学习的海上无人机编队变粒度协同搜救方法,其特征在于,所述步骤2中,协同割草机算法是指多架无人机根据各自的探测半径来回并排扫描作业区域的一种路径覆盖算法;记录感兴趣区域的具体过程为:

4.根据权利要求3所述基于强化学习的海上无人机编队变粒度协同搜救方法,其特征在于,函数定义如下:

5.根据权利要求4所述基于强化学习的海上无人机编队变粒度协同搜救方法,其特征在于,所述步骤3中,改进的数字信息素传播公式具体如下:

6.根据权利要求5所述基于强化学习的海上无人机编队变粒度协同搜救方法,其特征在于,所述步骤4中,无人机集群执行细粒度搜救作业时,飞行高度需要匹配的数字信息素强度的值是当前单元格的数字信息素强度加上0.5,根据步骤2的方法得到无人机自适应调整的飞行高度,并执行无人机集群变粒度搜救编队协同算法,得到无人机下一时刻的运动方向;变粒度搜救编队协同算法采用多智能体深度确定性策略梯度的强化学习算法进行动作决策,具体过程为:

7.根据权利要求6所述基于强化学习的海上无人机编队变粒度协同搜救方法,其特征在于,最小化损失函数的具体公式如下:

8.根据权利要求7所述基于强化学习的海上无人机编队变粒度协同搜救方法,其特征在于,第架无人机的Actor网络参数的更新是通过执行梯度下降的方法,具体公式为:

9.根据权利要求8所述基于强化学习的海上无人机编队变粒度协同搜救方法,其特征在于,所述步骤4中,每一架无人机根据当前离感兴趣区域的距离,以及与相邻无人机的距离,调整与相邻无人机的编队距离,得到下一时刻的运动方向,训练时的奖励函数具体如下:

...

【技术特征摘要】

1.一种基于强化学习的海上无人机编队变粒度协同搜救方法,其特征在于,包括如下步骤:

2.根据权利要求1所述基于强化学习的海上无人机编队变粒度协同搜救方法,其特征在于,所述步骤1中,将需要搜救的区域设定为一个矩形区域,该矩形区域为初始化的海上多无人机协同搜救作业区域;将该作业区域离散化为若干个单元格,将第个单元格记为,一个单元格对应一个航路点;在作业区域上空部署架无人机,每架无人机使用朝向向下的摄像机作为捕捉目标的传感器;将第架无人机的飞行高度记为,当前时刻第架无人机在海面上的探测半径为;初始化作业区域内共有个感兴趣目标,将第个感兴趣目标的运动过程通过随机马尔可夫状态转移模型表示为,其中表示第个感兴趣目标在时刻的海面位置,表示第个感兴趣目标在时刻的海面位置,是第个感兴趣目标运动过程的一个非线性函数,是第个感兴趣目标在时刻的过程噪声。

3.根据权利要求2所述基于强化学习的海上无人机编队变粒度协同搜救方法,其特征在于,所述步骤2中,协同割草机算法是指多架无人机根据各自的探测半径来回并排扫描作业区域的一种路径覆盖算法;记录感兴趣区域的具体过程为:

4.根据权利要求3所述基于强化学习的海上无人机编队变粒度协同搜救方法,其特征在于,函数定义如下:

5....

【专利技术属性】
技术研发人员:罗汉江郭恺刘奎陶航陈晓东董配军赵扬
申请(专利权)人:山东科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1