System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种水下AUV集群动态巡逻方法技术_技高网
当前位置: 首页 > 专利查询>上海大学专利>正文

一种水下AUV集群动态巡逻方法技术

技术编号:41336181 阅读:4 留言:0更新日期:2024-05-20 09:55
本申请属于机器人巡检领域,为一种水下AUV集群动态巡逻方法,通过对未知水下环境进行栅格化建模,而后将栅格化后的整个巡逻场景设置引力场和斥力场,并通过AUV集群马尔科夫决策模型对每个AUV执行的动作设置奖励,确定下一动作的巡逻位置,并通过AUV动作价值网络和集群联合动作决策网络对AUV的动作进行训练,直至AUV集群巡逻网络在实际巡逻场景中做出产生最优联合动作价值的决策,在面对未知环境时表现出强适应性,从而能够完成未知水下环境的巡逻任务。能够根据观测到的环境状态自适应计算单个AUV的联合价值权重,使得AUV能够据此选择对全局有利的动作,从而提高算法模型的训练效率及最终的性能适应环境变化。

【技术实现步骤摘要】

本申请属于机器人巡检领域,特别涉及一种水下auv集群动态巡逻方法。


技术介绍

1、随着自主式水下auv(autonomous underwater vehicle,auv)智能化和自动化水平的提高,auv集群已经成为海洋领域执行各类任务的主体。而巡逻是一项重复且具有潜在危险的任务,可以通过在指定区域部署auv集群来降低执行风险与执行成本。而如何实现auv集群的协同控制,解决auv集群资源分配、任务分工、信息共享等问题成了当前海洋智能体领域研究的热点。

2、海洋环境瞬息万变,整个系统面临三大挑战:(1)环境不确定性;(2)约束条件多;(3)通信条件有限。

3、而目前现有的方法存在着以下三个问题:

4、(1)面对未知环境应对性较差。目前常用的方法之一将一些固定形式的算应用于水下auv集群的协同控制技术,这一方法在已知且环境信息固定的简单任务场景中应用较好,但在复杂任务场景中实用性不高,很难应对动态变化的海洋环境。

5、(2)在多约束条件下求解困难。另一常用方法是将蚁群算法、遗传算法、粒子群算法等启发式算法应用于水下auv集群的协同控制技术,海洋巡逻过程是一个多约束应用场景,这一方法容易进入局部最优解,收敛性较差,搜寻结果稳定性差。

6、(3)环境信息缺失时集群决策响应慢。在通信条件差或者某一auv发生故障时,会导致auv集群丢失一部分环境信息。无论是固定形式的算法、还是启发式算法、又或者是近些年一些将基于策略优化的强化学习算法应用于水下auv集群的协同控制的方法,都会导致集群决策在重规划的过程中变得缓慢,且不能在环境信息缺失的条件下完成整个任务。

7、因此如何同时保证集群决策的效率和稳定性是一个需要解决的问题。


技术实现思路

1、本申请的目的是提供了一种水下auv集群动态巡逻方法,以解决现有技术中难以同时保证集群决策的效率和稳定性是一个需要解决的问题。

2、本申请的技术方案是:一种水下auv集群动态巡逻方法,包括:

3、获取auv探测直径,对每个auv的巡逻场景进行离散化,而后根据空间坐标系对未知水下环境进行栅格化建模,并对每个栅格进行编号;

4、在整个巡逻场景设置引力场和斥力场,斥力场为auv已探测区域,引力场为auv未探测区域,将引力场与斥力场叠加形成巡逻引导场模型;而后根据每个栅格的编号和巡逻引导场模型建立环境动态信息模型;

5、将每个auv均作为个体,建立auv集群模型,结合巡逻引导场模型和环境动态信息模型,得到复合奖励元模型。同时建立观测模型、集群状态模型、auv集群的动作模型,与auv集群模型、复合奖励元模型共同构成马尔科夫决策模型,每个auv与环境交互,基于马尔科夫决策模型得到观测状态、动作集合、复合奖励值、集群状态;

6、建立auv动作价值网络和集群联合动作决策网络,形成auv集群巡逻网络。观测模型和auv集群的动作模型作为输入,通过auv动作价值网络评估每个auv的动作价值;每个auv的动作价值和集群状态作为输入,通过集群联合动作决策网络评估auv集群的联合动作价值;

7、采集auv集群执行巡逻任务时的工作参数,输入至auv集群巡逻网络中,对auv集群巡逻网络进行迭代训练,在达到最大迭代数时训练结束;

8、将训练完成的auv集群巡逻网络中的auv动作价值网络部署在auv上,在实际巡逻场景中做出产生最优联合动作价值的决策,生成巡逻策略,执行巡逻任务。

9、优选地,对所述未知水下环境进行栅格化建模的具体方法为:

10、以三维环境中最大深度h所在平面中的任意顶点为原点,表示为(0,0,0),以垂直指向水面方向为z轴,再沿环境边界建立x、y轴;

11、以auv位置为圆心,以探测直径d为半径,设置环境栅格边长a:

12、

13、以整数位置节点(x,y,z)为中心,以a为边长设置立方体环境栅格,将整个巡逻空间划分为三维栅格。

14、优选地,所述巡逻引导场模型的建立方法为:

15、在时间t时刻,集群内的auv会互相产生斥力场urep(x):

16、

17、在未探测区域设置一个目标点产生引力场uatt(x):

18、

19、其中:γ为常数;x,xtari分别代表auv和目标点的位置;ρt(x,xtari)表示auv同目标之间的欧氏距离;

20、将引力场与斥力场叠加形成巡逻引导场模型u(x);

21、u(x)=uatt(x)+urep(x)。

22、优选地,所述环境动态信息模型中设定在t时刻第k个栅格信息素含量为ρk(t):

23、

24、式中,d是信息素衰减率,ρmax为信息素的衰减下限。

25、优选地,所述auv集群马尔科夫决策模型的建立方法为:

26、建立集合m={m1,m2,...mn}代表包含n个auv的集群模型,m为每个auv模型;

27、建立t时刻第i个auv的观测模型其中(x,y,z)为auv的位置坐标,ρk(t)为auv所在栅格(x,y,z)在t时刻的信息素含量,为auv所在栅格(x,y,z)在t时刻的状态判定函数;

28、建立t时刻auv集群状态模型以及auv集群的动作模型

29、结合巡逻引导场模型和环境动态信息模型,得到复合奖励元模型

30、

31、优选地,所述复合奖励元模型的建立方法为:

32、将复合奖励元分为引导奖励元、探测奖励元和方向奖励元;所述引导奖励元为时间t时刻单个auv的总引导奖励r1:

33、r1=|u(x)|

34、所述探测奖励元为在时间t时刻,auv所在栅格(x,y,z)的奖励:

35、r2=pk(t)

36、所述方向奖励元为在时间t时刻的方向奖励r3;

37、复合奖励元对各奖励元进归一化处理后,为非线性加权和后得到单个auv在t时刻的奖励:

38、

39、建立复合奖励元模型为所有auv执行动作后获得奖励集合。

40、优选地,所述auv动作价值网络以t时刻收到的观测量作为输入,通过计算得到该动作的动作价值qt;所述auv集群的auv集群的联合动作决策网络包括偏置拟合网络c(s)和多注意力层的联合价值权重拟合网络,以动作价值qt、集群状态st作为输入进入多注意力层的联合价值权重拟合网络,产生动作价值qt对应的联合价值权重λi,h,联合价值权重λi,h、动作价值qt作为输入进入偏置拟合网络c(s)(字体需修改),产生联合动作价值qtot。

41、优选地,对所述auv集群巡逻网络进行迭代训练的具体方法为:

42、进行全局初始化,初始化数据缓存器bπ,容量设置为n,初始化整个网络,使用随机参数初始化w;

43、控制本文档来自技高网...

【技术保护点】

1.一种水下AUV集群动态巡逻方法,其特征在于,包括:

2.如权利要求1所述的水下AUV集群动态巡逻方法,其特征在于,对所述未知水下环境进行栅格化建模的具体方法为:

3.如权利要求1所述的水下AUV集群动态巡逻方法,其特征在于,所述巡逻引导场模型的建立方法为:

4.如权利要求1所述的水下AUV集群动态巡逻方法,其特征在于,所述环境动态信息模型中设定在t时刻第K个栅格信息素含量为ρk(t):

5.如权利要求1所述的水下AUV集群动态巡逻方法,其特征在于,所述AUV集群马尔科夫决策模型的建立方法为:

6.如权利要求5所述的马尔科夫决策模型,其特征在于,所述复合奖励元模型的建立方法为:

7.如权利要求1所述的水下AUV集群动态巡逻方法,其特征在于,所述AUV动作价值网络以t时刻收到的观测量作为输入,通过计算得到该动作的动作价值Qt;所述AUV集群的AUV集群的联合动作决策网络包括偏置拟合网络c(s)和多注意力层的联合价值权重拟合网络,以动作价值Qt、集群状态St作为输入进入多注意力层的联合价值权重拟合网络,产生动作价值Qt对应的联合价值权重λi,h,联合价值权重λi,h、动作价值Qt作为输入进入偏置拟合网络c(s),产生联合动作价值Qtot。

8.如权利要求1所述的水下AUV集群动态巡逻方法,其特征在于,对所述AUV集群巡逻网络进行迭代训练的具体方法为:

9.如权利要求8所述的水下AUV集群动态巡逻方法,其特征在于,所述AUV动作价值网络和联合动作决策网络参数训练的具体方法为:

...

【技术特征摘要】

1.一种水下auv集群动态巡逻方法,其特征在于,包括:

2.如权利要求1所述的水下auv集群动态巡逻方法,其特征在于,对所述未知水下环境进行栅格化建模的具体方法为:

3.如权利要求1所述的水下auv集群动态巡逻方法,其特征在于,所述巡逻引导场模型的建立方法为:

4.如权利要求1所述的水下auv集群动态巡逻方法,其特征在于,所述环境动态信息模型中设定在t时刻第k个栅格信息素含量为ρk(t):

5.如权利要求1所述的水下auv集群动态巡逻方法,其特征在于,所述auv集群马尔科夫决策模型的建立方法为:

6.如权利要求5所述的马尔科夫决策模型,其特征在于,所述复合奖励元模型的建立方法为:

7.如权利要求1所述的水下auv集...

【专利技术属性】
技术研发人员:解杨敏陈曦许明明熊一权冯育萁
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1