当前位置: 首页 > 专利查询>济宁学院专利>正文

一种基于强化学习的无人艇港口停泊与避障算法、停泊与避障系统及可读存储介质技术方案

技术编号:40596801 阅读:41 留言:0更新日期:2024-03-12 21:59
本发明专利技术属于无人艇运动控制技术领域,具体公开了一种基于强化学习的无人艇港口停泊与避障算法,确定强化学习的状态空间、动作空间和奖励函数,状态空间包括位置、速度、加速度、船只长度、宽度、航向角,动作空间包括速度、加速度、驱动力大小、航向角、舵角角度和驱动装置距无人艇重心距离,奖励函数根据碰撞、停泊位置准确与否等进行设计与更新,将上述状态量、动作量、奖励函数作为经验数据存入经验池中,并应用优先经验回放更新网络模型参数,循环至网络收敛,得到训练好的最优无人艇港口停泊与避障网络模型。本发明专利技术能够在复杂的港口条件中实现无人艇的停泊控制,从而提高船只进出港的效率并避免船只碰撞事故,实现港口通行高效化管理。

【技术实现步骤摘要】

本专利技术属于无人艇运动控制,具体涉及一种基于强化学习的无人艇港口停泊与避障算法、停泊与避障系统及可读存储介质


技术介绍

1、传统的无人艇控制方法主要依赖于预定轨迹和规则基础,但在复杂的港口环境中,这些方法往往显得缺乏适应性,导致无人艇难以适应复杂港口的动态障碍物、海洋潮汐和未知水域等环境,严重影响无人艇在港口操作过程中的效率和安全性。

2、而强化学习算法最为一种极具潜力的方法,能够使无人艇在实际环境中学习、适应和改进,具备适应性强、泛化能力优越的特点;这使得经过强化学习后的无人艇能够更灵活地应对动态情境,提高在复杂水域中的通航性能。

3、但现有的强化学习无人艇港口停泊算法有着明显的缺陷,其未考虑在停泊过程中出现的碰撞问题,未针对停泊后的具体位置更新奖励函数,因此会导致无人艇停泊位置不精确,训练效率较低;且未针对停泊模型网络存在高估问题,准确性不强;随机采样经验数据进行网络参数更新,数据存在关联性,也会导致训练效果不佳。


技术实现思路

1、基于上述问题,本专利技术提供了一种基于强化学本文档来自技高网...

【技术保护点】

1.一种基于强化学习的无人艇港口停泊与避障算法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于强化学习的无人艇港口停泊与避障算法,其特征在于,在步骤S2中,所述状态量

3.根据权利要求1所述的基于强化学习的无人艇港口停泊与避障算法,其特征在于,在步骤S4中,所述动作量

4.根据权利要求1所述的基于强化学习的无人艇港口停泊与避障算法,其特征在于,在步骤S6中,所述修改前单步奖励函数为:

5.根据权利要求1所述的基于强化学习的无人艇港口停泊与避障算法,其特征在于,在步骤S3中,无人艇轨迹预测模型根据无人艇当前的运动速度、加速度和方向,...

【技术特征摘要】

1.一种基于强化学习的无人艇港口停泊与避障算法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于强化学习的无人艇港口停泊与避障算法,其特征在于,在步骤s2中,所述状态量

3.根据权利要求1所述的基于强化学习的无人艇港口停泊与避障算法,其特征在于,在步骤s4中,所述动作量

4.根据权利要求1所述的基于强化学习的无人艇港口停泊与避障算法,其特征在于,在步骤s6中,所述修改前单步奖励函数为:

5.根据权利要求1所述的基于强化学习的无人艇港口停泊与避障算法,其特征在于,在步骤s3中,无人艇轨迹预测模型根据无人艇当前的运动速度、加速度和方向,推测后续时间内的无人艇运行轨迹,判断以无人艇当前运行轨迹,无人艇和社会船只之间是否会发生碰撞,若发生碰撞,rsi=-1,若未发生碰撞,rsi=1。

6.根据权利要求1所述的基于强化学习的无人艇港口停泊与避障算法,其特征在于,在步骤s4中,所述无人艇港口停泊与避障控制网络模型包括actor网络和critic网络;所述actor网络的输入为状态量st,输出为动作量at;所述critic网络的输入为当前时刻的状态量st,输出为状态量st的状态价值评估值。

7....

【专利技术属性】
技术研发人员:刘军孔凤杰肖翰文丁晓蕾尹小丹冯亿喆王颖程士豪
申请(专利权)人:济宁学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1