当前位置: 首页 > 专利查询>海南大学专利>正文

一种多水下机器人自适应采样的海洋观测控制方法及装置制造方法及图纸

技术编号:37471163 阅读:26 留言:0更新日期:2023-05-06 09:51
本发明专利技术提供了一种多水下机器人自适应采样的海洋观测控制方法及装置,方法包括:初始化状态及网络参数;在某个机器人出水时,获取该机器人位置及已采样区域特征向量;对其他机器人当前位置进行估计,同时获取出水机器人出水距离的实际值;采用克里金方法进行海洋特征场估计;依据各机器人位置及海洋特征场估计形成状态组;将状态组、位置记忆、特征向量存储在记忆库;将重新赋值的状态组输入策略神经网络,输出机器人动作指令,判断神经网络参数是否更新,对各神经网络参数进行更新或进一步判断采样任务是否结束,并循环或结束。本发明专利技术使多水下机器人的采样控制具有自主学习和决策能力,降低了采样不确定性,实现了多机器人自适应协同采样控制。适应协同采样控制。适应协同采样控制。

【技术实现步骤摘要】
一种多水下机器人自适应采样的海洋观测控制方法及装置


[0001]本专利技术属于水下机器人控制
,特别涉及一种多水下机器人自适应采样的海洋观测控制方法及装置。

技术介绍

[0002]海洋观测关系到海洋环境维护、开发海洋资源、维护国家安全等诸多方面,然而只有有限的原位观测资源可用于研究这一广阔的领域,随着多智能体强化学习技术的研究和应用,该技术也延伸拓展至水下机器人领域。但是,大多水下机器人缺乏一种高效的协同采样的数据收集控制方法。
[0003]目前水下机器人在海洋采样方面一般是采用固定路径、固定区域控制采样,也有不少学者进行了依据海洋场的估计而设计的采样策略。以上方法要么缺少自主性,要么缺少动态的学习性,也无法实现具有自主学习和自主决策的多机器人的协作采样,整体来看,采样效率较低。

技术实现思路

[0004]为了解决
技术介绍
中的问题,本专利技术提供一种多水下机器人自适应采样的海洋观测控制方法及装置,可以实现水下机器人在编队容许误差约束下的自适应性采样,一方面自主实现自适应性采样控制,另外实现多水下机器人的协同采样。<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多水下机器人自适应采样的海洋观测控制方法,其特征在于,包括以下步骤:S1,设定水下机器人的初始位置,并初始化状态及各网络参数;其中,策略网络参数、评价网络参数和位置估计网络参数按照仿真结果赋初值;S2,在第j个水下机器人出水时,通过与卫星通讯获取该机器人的位置P
j
及已采样区域的特征向量z(x);S3,通过位置估计神经元网络对其他水下机器人的当前位置进行估计;同时计算获取第j个水下机器人出水距离的实际值D
j
;S4,结合第j个水下机器人出水时采样区域的特征向量z(x),采用克里金方法进行海洋特征场估计;S5,依据各水下机器人位置及海洋特征场估计形成状态组;S6,将状态组、位置记忆、特征向量z(x)存储在记忆库;S7,将s重新赋值s=s

;S8,将s重新赋值的状态组输入第一策略神经网络输出水下机器人入水时的动作指令,动作选择的约束条件为多机的队形范围;S9,判断神经网络参数是否更新;判断循环的次数是否大于设定的循环周期,若是则进入S10,若否则进入S11;S10,对各神经网络参数进行更新;从记忆库中获取历史状态组数据,对第一策略神经网络结合第二策略神经网络第一评价神经网络和第二评价神经网络进行训练并进行网络参数更新;S11,判断采样任务是否结束,若是则结束,若否则进入S2。2.如权利要求1所述的一种多水下机器人自适应采样的海洋观测控制方法,其特征在于,所述S3的具体过程为:当第j个水下机器人出水时,计算第i个机器人出水距离的估计值其中i不为j,i=1,

,n,n指水下机器人总数量,W
t
为神经网络权重矩阵,采用以往的数据集训练获得,a
i
为水下机器人入水时的动作;从而计算获取第i个水下机器人的当前位置从而计算获取第i个水下机器人的当前位置其中P
i0
为水下机器人入水前位置,T
pi
为水下机器人本次剖面在水下的时间,T
i
为当前时刻与入水时刻的时间差;所述计算获取第j个水下机器人出水距离的实际值D
j
,为其当前位置减去其前一个出水位置得到的差值。
3.如权利要求1所述的一种多水下机器人自适应采样的海洋观测控制方法,其特征在于,所述S4中采用克里金方法进行海洋特征场估计具体为:海洋场在空间分布上具有一定的连续性和相关性,服从正态分布其中C(x,x

)为海洋特征各点的协方差;依据克里金方法可得待估计点的特征向量z(x)的估计值为:估计点的方差为:其中x
i
为待估计点,λ
i
为对应第i个观测数据的克里金估计加权系数;F为观测点的基函数矩阵,F0为待估计点的基函数矩阵,V为观测点之间的协方差向量,V0为待估计点与观测点之间的协方差向量。4.如权利要求1所述的一种多水下机器人自适应采样的海洋观测控制方法,其特征在于:所述S5中的状态组为[s,a,r,s

];其中s为本循环状态,s

为当前状态,所述s及s

均由构成,φ是航向角,为计算获取的n水下机器人的当前位置,n代表水下机器人的总数量;其中a是水下机器人入水时的动作,所述水下机器人的动作为航向角φ和螺旋桨转速T;其中r为综合奖励,r=f(g(X))其中函数f(.)可以是阶梯函数、高斯函数或者线性函数三者中的任意一种,g(X)为采样性能准则函数,其中X是采样点位置,σ2[z(x1|X)]是x
i
处基于采样点X的克里金估计方差;所述S6中的位置记忆集合为[φ,T,D],D为n个水下机器人的出水距离的实际值。5.如权利要求4所述的一种多水下机器人自适应采样的海洋观测控制方法,其特征在于,所述S10中对各神经网络参数进行更新,具体过程如下:设θ
a
为第一策略神经网络的参数矩阵,θ

a
为第二策略神经网络的参数矩阵,第二策略神经网络网络用于实现对评价网络的训练;
第一评价神经网络和第二评价神经网络组成评价网络,该网络输入为状态s、动作a,输出为值函数y;第一策略神经网络和第二策略神经网络参数更新:按照梯度下降进行参数更新,其沿θ
a
的梯度为第一策略神经网络的网络参数θ
a
以α
a
的学习率进行更新,第二策略神经网络网络参数θ

a
按照更新率τ更新,θ

a
=τθ
a
+(1

τ)θ

a
第一评价神经网络和第二评价神经网络网络参数更新:第一评价神经网络的学习训练通过计算损失函数进行,L为损失函数,其中,L沿θ
a
的梯度为第一评价神经网络网络参数θ
c
以α
c
的学习率进行更新,第二评价神经网络网络参数θ

c
按照更新率τ更新,
θ<...

【专利技术属性】
技术研发人员:马小娟李静茹刘晓梅
申请(专利权)人:海南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1