一种基于深度强化学习的水下自主航行器动态避障方法技术

技术编号:28772904 阅读:81 留言:0更新日期:2021-06-09 11:00
一种基于深度强化学习的水下自主航行器动态避障方法,涉及水下机器人避障技术领域。本发明专利技术是为了解决目前缺乏水下自主航行器对动态障碍物的避障研究的问题。本发明专利技术建立水下自主航行器模型与运动学模型,获取周围障碍物的信息;采集水下自主航行器周围机动障碍物的运动状态信息,并构造动态障碍物状态方程;根据动态障碍物状态方程预测动态障碍物运动学模型;根据水下自主航行器周围障碍物的信息和动态障碍物运动学模型,融合多动态障碍物避障法生成避障策略并转化为MDP模型;结合确定性深度策略梯度算法对MDP模型进行训练,直至水下自主航行器能够无碰撞的到达目标区域;利用训练好的MDP模型引导水下自主航行器航行。训练好的MDP模型引导水下自主航行器航行。训练好的MDP模型引导水下自主航行器航行。

【技术实现步骤摘要】
一种基于深度强化学习的水下自主航行器动态避障方法


[0001]本专利技术属于水下机器人避障


技术介绍

[0002]近年来,伴随着海洋开发、海洋军事应用的需要,新材料、新能源和人工智能等技术的不断进步,各国的海洋大国都加快了对水下自主航行器(autonomous underwater vehicle,AUV)的研究步伐并取得重要进展。与载人水下航行器相比,AUV凭借着机动性强、作用域广、无人员伤亡风险、适应能力与生存能力高、制造与维护成本低等优势得到了各国学者的重点关注。并且水下自主航行器已不仅限于海洋环境使用,如今逐渐应用于各种水域,如航道水域、输水隧洞、港口水域等,成为对水下世界的探索、水下环境探测和水下救援等的关键性设备。
[0003]水下环境复杂多变,当水下自主航行器到达水下航行时,水下自主航行器面临着大大小小的障碍物,有静止的也有运动的,它们严重威胁着水下自主航行器的运行安全。目前大多数的研究者在水下自主航行器的静态障碍物避障方面也取得了大大小小的进展,但是对于动态障碍物的避障研究很少开展。在水下有各种动态障碍物,如水本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的水下自主航行器动态避障方法,其特征在于,包括以下步骤:步骤一:建立水下自主航行器模型与运动学模型,从而获取水下自主航行器周围障碍物的信息;步骤二:采集水下自主航行器周围机动障碍物的运动状态信息,并构造动态障碍物状态方程,所述运动状态信息包括:运动状态向量、状态转移矩阵、过程噪声和输入控制矩阵;步骤三:利用概率数据关联的粒子滤波方法根据动态障碍物状态方程预测动态障碍物运动学模型;步骤四:根据步骤一获得的水下自主航行器周围障碍物的信息和步骤三获得的动态障碍物运动学模型,在笛卡尔坐标系下建立多动态障碍物的在线训练环境,并融合多动态障碍物避障法生成避障策略;步骤五:将步骤四生成的避障策略转化为MDP模型,并建立水下自主航行器面对多个动态障碍物时MDP模型的状态集和动作集;步骤六:将状态集作为MDP模型的输入、动作集作为MDP模型的输出,结合确定性深度策略梯度算法对MDP模型进行训练,直至MDP模型下水下自主航行器能够无碰撞的到达目标区域;步骤七:利用训练好的MDP模型引导水下自主航行器航行。2.根据权利要求1所述的一种基于深度强化学习的水下自主航行器动态避障方法,其特征在于,步骤一所述水下自主航行器模型包括:一个尾推进器、两个侧推进器和7个避障声呐,水下自主航行器模型的测距声呐采样频率为2Hz、探测距离为150m~200m,随体坐标系下分布角度依次为:90
°
、60
°
、30
°
、0
°


30
°


60
°


90
°
;运动学模型为水平面3自由度的运动学模型,其方程为:其中,为水下自主航行器在大地坐标系下的水平面位置矢量,υ为水下自主航行器在载体下的水平面速度矢量,R(ψ)为转换矩阵,ψ为水下自主航行器的偏航角,r为水下自主航行器在随体坐标系下的偏航角速度。3.根据权利要求1所述的一种基于深度强化学习的水下自主航行器动态避障方法,其特征在于,步骤二中动态障碍物状态方程包括:匀速运动模型在采样间隔为T时的离散时间状态方程和匀加速运动模型在采样间隔为T时的离散时间状态方程,所述匀速运动模型在采样间隔为T时的离散时间状态方程表达式如下:X
k+1
=F
CV
X
k

k+1
,其中,X
k+1
和X
k
分别为匀速运动模型在k+1和k时刻的状态,F
CV
为匀速运动模型状态转移矩阵,ω
k+1
为匀速运动模型在离散时间内的过程噪声,所述匀加速运动模型在采样间隔为T时的离散时间状态方程表达式如下:其中,和分别为匀加速运动模型在k+1和k时刻的状态,F
CA
为匀加速运动模型状
态转移矩阵,为匀加速运动模型在离散时间内的过程噪声。4.根据权利要求3所述的一种基于深度强化学习的水下自主航行器动态避障方法,其特征在于,匀速运动模型状态转移矩阵F
CV
的表达式为:其中,匀加速运动模型状态转移矩阵F
CA
的表达式为:其中,5.根据权利要求1所述的一种基于深度强化学习的水下自主航行器动态避障方法,其特征在于,步骤四中,结合水下自主航行器所在水域环境的地形信息构建训练环境地图模型,然后根据动态障碍物运动学模型在训练环境地图模型中加载多个动态障碍物,获得笛卡尔坐标系下多动态障碍物的在线训练环境。6.根据权利要求1或2所述的一种基于深度强化学习的水下自主航行器动态避障方法,其特征在于,步骤四中,将水下自主航行器趋向目标行为作为引力势场函数,将水下自主航行器规避动态障碍物行为作为水下...

【专利技术属性】
技术研发人员:孙玉山罗孝坤张国成李岳明薛源于鑫张红星
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1