【技术实现步骤摘要】
本专利技术属于无人艇运动控制,具体涉及一种基于强化学习的无人艇港口停泊与避障算法、停泊与避障系统及可读存储介质。
技术介绍
1、传统的无人艇控制方法主要依赖于预定轨迹和规则基础,但在复杂的港口环境中,这些方法往往显得缺乏适应性,导致无人艇难以适应复杂港口的动态障碍物、海洋潮汐和未知水域等环境,严重影响无人艇在港口操作过程中的效率和安全性。
2、而强化学习算法最为一种极具潜力的方法,能够使无人艇在实际环境中学习、适应和改进,具备适应性强、泛化能力优越的特点;这使得经过强化学习后的无人艇能够更灵活地应对动态情境,提高在复杂水域中的通航性能。
3、但现有的强化学习无人艇港口停泊算法有着明显的缺陷,其未考虑在停泊过程中出现的碰撞问题,未针对停泊后的具体位置更新奖励函数,因此会导致无人艇停泊位置不精确,训练效率较低;且未针对停泊模型网络存在高估问题,准确性不强;随机采样经验数据进行网络参数更新,数据存在关联性,也会导致训练效果不佳。
技术实现思路
1、基于上述问题,本专利技术
...【技术保护点】
1.一种基于强化学习的无人艇港口停泊与避障算法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于强化学习的无人艇港口停泊与避障算法,其特征在于,在步骤S2中,所述状态量
3.根据权利要求1所述的基于强化学习的无人艇港口停泊与避障算法,其特征在于,在步骤S4中,所述动作量
4.根据权利要求1所述的基于强化学习的无人艇港口停泊与避障算法,其特征在于,在步骤S6中,所述修改前单步奖励函数为:
5.根据权利要求1所述的基于强化学习的无人艇港口停泊与避障算法,其特征在于,在步骤S3中,无人艇轨迹预测模型根据无人艇当前的运动
...【技术特征摘要】
1.一种基于强化学习的无人艇港口停泊与避障算法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于强化学习的无人艇港口停泊与避障算法,其特征在于,在步骤s2中,所述状态量
3.根据权利要求1所述的基于强化学习的无人艇港口停泊与避障算法,其特征在于,在步骤s4中,所述动作量
4.根据权利要求1所述的基于强化学习的无人艇港口停泊与避障算法,其特征在于,在步骤s6中,所述修改前单步奖励函数为:
5.根据权利要求1所述的基于强化学习的无人艇港口停泊与避障算法,其特征在于,在步骤s3中,无人艇轨迹预测模型根据无人艇当前的运动速度、加速度和方向,推测后续时间内的无人艇运行轨迹,判断以无人艇当前运行轨迹,无人艇和社会船只之间是否会发生碰撞,若发生碰撞,rsi=-1,若未发生碰撞,rsi=1。
6.根据权利要求1所述的基于强化学习的无人艇港口停泊与避障算法,其特征在于,在步骤s4中,所述无人艇港口停泊与避障控制网络模型包括actor网络和critic网络;所述actor网络的输入为状态量st,输出为动作量at;所述critic网络的输入为当前时刻的状态量st,输出为状态量st的状态价值评估值。
7....
【专利技术属性】
技术研发人员:刘军,孔凤杰,肖翰文,丁晓蕾,尹小丹,冯亿喆,王颖,程士豪,
申请(专利权)人:济宁学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。