一种基于强化学习的多AUV协同导航方法技术

技术编号:29046698 阅读:18 留言:0更新日期:2021-06-26 06:03
本发明专利技术提供一种基于强化学习的多AUV协同导航方法,该方法将协同导航过程分为两个主要过程,首先是轨迹规划过程,集群中从AUV的轨迹根据所要执行的任务通过人工规划得到,主AUV的轨迹通过基于分层Q学习的轨迹规划方法得到。之后是导航计算过程,选用适当的非线性滤波算法进行实际导航计算。试验验证表明,主AUV按照本发明专利技术规划的轨迹航行,然后从AUV使用非线性滤波进行导航计算后能够明显降低从AUV的定位误差。定位误差。定位误差。

【技术实现步骤摘要】
一种基于强化学习的多AUV协同导航方法


[0001]本专利技术涉及一种基于强化学习的多AUV协同导航方法,属于水下航行器导航


技术介绍

[0002]自主水下航行器(Autonomous Underwater Vehicle,AUV)是水下移动机器人(Underwater mobile robot)的一种应用最广泛的形式,是可在水下自主运动、具有感知能力、可用于水下侦察、遥控猎雷和作战等的水下自主航行载体。其能够在水下发挥作用、执行任务的必要条件是能够准确地确定自身的位置,所以导航是AUV的关键技术之一。与陆地和空中的导航方式不同,由于水下缺少GPS的支持,航位推算、惯性导航、多普勒测速仪、声学定位与地球物理导航被广泛使用于AUV的导航,但是,上述这些导航方式有着各自的限制。
[0003]多AUV协同导航技术,尤其是主从式协同导航技术是目前的研究热点。主从式协同导航方法将AUV分为主AUV和从AUV,前者携带成本较高的高精度导航设备,后者携带成本较低的低精度导航设备和执行作业任务所需要的探测设备,两者之间通过水声通讯设备进行信息本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的多AUV协同导航方法,其特征在于:包括以下步骤:步骤1:在离线状态下,针对单主多从的多AUV协同导航需求,主AUV利用预先规划好的各个从AUV轨迹,通过Q

learning方法学习得到对应各个从AUV的动作价值函数Q:步骤2:在离线状态下,根据步骤1学习得到的对应每一个从AUV的动作价值函数,主AUV针对导航过程中的各个子阶段选取最优的动作进行执行,得到最优轨迹;步骤3:在实际导航过程中,主AUV根据步骤2得到的最优轨迹,从AUV依据预先规划好的轨迹,并利用各自的导航设备进行导航计算,实现单主多从的多AUV协同导航。2.根据权利要求1所述一种基于强化学习的多AUV协同导航方法,其特征在于:步骤1中,通过Q

learning方法学习得到对应各个从AUV的动作价值函数Q的过程为:初始化N个动作价值函数Q为全0矩阵,N为从AUV的个数,给定迭代学习最大次数,然后对于每个从AUV,均采用以下迭代学习过程,得到对应的动作价值函数Q;对于第i个从AUV,具体步骤包括:步骤1.1:针对主AUV,使用∈

贪心法从动作集合A中选取一个动作a,所述动作集合A为主AUV的动作集合,根据主AUV的最大航行角速度ω
max
和最小航行角速度ω
min
确定动作集合的取值:A∈{ω
min
,...,ω
max
};步骤1.2:在当前状态s下,主AUV执行动作a,并根据AUV运动学方程更新主AUV位置,得到奖励R和新的状态s',计算本次动作的回报值:R
k+1


(C
k+1
+P
k+1
)k时刻对应状态s,k+1时刻对应状态s',其中,C
k+1
为状态s'下,由于主从AUV的相对方位角度变化产生的代价值,P
k+1
为状态s'下,由于主从AUV相对距离产生的惩罚值;状态s以及状态s'为状态集合S
i
中的元素,状态集合S
i
为第i个从AUV的状态集合S
i
={θ
i
,D
i
},θ
i
为第i个从AUV与主AUV之间的相对方位角,D
i
为k时刻第i个从AUV与主AUV之间的相对距离;步骤1.3:按照下面的式子更新对应的动作价值函数Q
i
:其中,γ为衰减因子,α为设定的学习步长,Q
i
(s,a)为更新前的动作价值函数Q
i
在状态s和动作a下的评价值,a
*
为在动作集合A中得到的、且使更新前的动作价值函数Q
i
在状态s'下取得最大值的动作,为更新前的动作价值函数Q
i
在状态s'和动作a
*
下的评价值;步骤1.4:更新状态s

【专利技术属性】
技术研发人员:张立川武东伟任染臻邢润发
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1