一种基于强化学习的无人船自动靠泊控制方法技术

技术编号:37145407 阅读:51 留言:0更新日期:2023-04-06 21:56
本发明专利技术提出了一种基于强化学习的无人船自动靠泊控制方法,根据直接靠泊方式构建马尔科夫决策过程模型,用于建立无人船的状态空间、动作空间;并根据船舶数学模型建立动作到状态的变化过程、任务奖励函数;基于靠泊环境设置训练的回合数和每回合时间步,每回合中生成无人船靠泊位姿点;采用SAC算法对神经网络模型进行训练,得到神经网络模型最优参数,即动力定位控制器;设置期望的靠泊位姿点,测试动力定位控制器是否能在干扰环境下通过输入状态信息,输出船舶推力大小直至到达靠泊位姿点。本发明专利技术简化了无人船自动靠泊控制方法的设计过程,具有响应速度快、鲁棒性强和定位精度高等优点。高等优点。高等优点。

【技术实现步骤摘要】
一种基于强化学习的无人船自动靠泊控制方法


[0001]本专利技术属于无人船运动控制
,具体涉及一种基于强化学习的无人船自动靠泊控制方法。

技术介绍

[0002]无人船(Unmanned surface vehicles,USV)是一种依靠船载传感器在水面进行自主或半自主方式航行的智能化平台,可代替人们在水面完成危险、繁重的任务,在军用与民用领域发挥着重要的作用。自动靠泊是保证船舶安全高效航行的重要环节之一,也是实现全自动USV的重要组成部分。
[0003]船舶在靠泊过程中处于低速航行,受岸壁效应和风、浪、流等因素影响,同时还存在低速模型的不确定性,对靠泊控制带来很大困难。无人船自动靠泊系统对于实现远程无人化具有重要的意义。
[0004]无人船自动靠泊根据不同的推进器配置主要有泊位外稳定和直接靠泊两种方式。泊位外稳定需设定一条期望航线,使船舶沿着虚拟航线在离码头1.5倍船长的安全距离处实现稳定。直接靠泊模拟拖轮靠泊方式,先使船舶行驶到靠泊区域,然后再利用船舶动力定位系统移动船舶实现靠泊。泊位外稳定方式中期望航线不具通用性且难以工程实现,因此本专利选择直接靠泊方式。
[0005]专利CN113110468A提出了一种应用于欠驱动双桨双舵船舶自动靠泊的控制方法,包括:船舶运动模型参数辨识步骤基于扩展卡尔曼滤波方法,将实际靠泊过程发生的频繁错车、倒车等因素考虑在辨识的运动模型结构中,实现靠泊航行过程中船舶运动模型参数的自适应修正。模型预测控制步骤和PID控制步骤,利用非线性模型预测控制和PID控制技术实现靠泊过程的路径规划和跟踪控制。其中,利用非线性模型预测控制规划的航线考虑船舶非线性运动特性和实际环境与障碍物因素的影响,PID控制解决非线性模型预测控制求解速度慢、求解周期较长的局限,克服非线性模型预测周期内模型参数变化、环境干扰等因素变化对非线性模型预测控制方法生成控制指令的缺陷。但计算量复杂,难以保证实时性。
[0006]专利CN108267955A提出了一种欠驱动无人艇的自动靠泊控制方法,步骤为:根据无人艇当前的靠泊状态确定当前控制系统模式;获取当前无人艇的实际速度或航向,获得航向或航速的控制偏差和偏差变化率;将其作为模糊控制器输入,结合当前控制系统模式选择合适的控制参数变化量并更新控制参数;将误差作为控制器输入,由控制器输出期望控制指令传递给执行器。在传统PID控制器上进行改进,将控制器分成了两种模式——远端模式和近岸模式,加入自适应模糊控制规则,使其根据靠泊行为改变进行控制参数的动态自适应调整,解决欠驱动无人艇自主靠岸时的弱机动,大扰动以及强岸壁效应等影响下的运动控制难题。但设计缺乏系统性,即使存在自适应调参也会受限于人工建立的数学模型和环境模型表达能力,难以保证控制精度。
[0007]上述运动控制方法在复杂的海洋环境中面临大量参数整定、计算复杂、实时性、且
不具备自学习能力等问题,难以在复杂的海洋环境下保证控制精度和响应速度。

技术实现思路

[0008]专利技术目的:本专利技术提出一种基于强化学习的无人船自动靠泊控制方法,不依赖先验知识和精确的数学模型,不需要复杂计算,适合应用不确定性环境,同时具备自学习能力,具有响应速度快、鲁棒性强和定位精度高等优点。
[0009]技术方案:本专利技术所述的一种基于强化学习的无人船自动靠泊控制方法,包括以下步骤:
[0010](1)根据直接靠泊方式构建马尔科夫决策过程模型,用于建立无人船的状态空间、动作空间;并根据船舶数学模型建立动作到状态的变化过程、任务奖励函数;
[0011](2)基于靠泊环境设置训练的回合数和每回合时间步,每回合中生成无人船靠泊位姿点;
[0012](3)采用SAC算法对神经网络模型进行训练,得到神经网络模型最优参数,即动力定位控制器;
[0013](4)设置期望的靠泊位姿点,测试动力定位控制器是否能在干扰环境下通过输入状态信息,输出船舶推力大小直至到达靠泊位姿点。
[0014]进一步地,所述步骤(1)包括以下步骤:
[0015](11)构建马尔科夫决策过程模型〈S,A,P,R〉;
[0016](12)设置无人船的状态空间,作为控制器的输入:
[0017]S=〈N,E,ψ,u,v,r,N
e
,E
e

e

ꢀꢀ
(1)
[0018]其中,N,E,ψ,u,v,r,N
e
,E
e

e
分别代表无人船的北东位置、艏向、纵荡速度、横荡速度、艏摇速度、北东位置误差和艏向误差;
[0019](12)设置无人船的动作空间,作为控制器的输出:
[0020]A=〈τ
X

Y

N

ꢀꢀ
(2)
[0021]其中,τ
X

Y

N
分别代表无人船的纵荡、横荡、艏摇推力大小;
[0022](13)设置无人船的动作到状态的变化过程,用于环境的动作交互:
[0023][0024]其中,P代表无人船在该状态下采取动作后,转移到下一时刻状态的概率;
[0025](14)设置无人船的奖励,用于引导无人船完成控制任务:
[0026][0027]其中,R代表无人船每秒所获得的总奖励,奖励包括误差奖励、速度奖励、位置限制奖励。
[0028]进一步地,所述步骤(3)实现过程如下:
[0029](31)初始化两个Critic网络和Actor网络π
θ
,初始化两个Critic目标网络初始化经验池为空其中φ1和φ2为两个Critic网络网络参数,θ为Actor网络π
θ
参数,为Critic目标网络参数,D为经验池,表示空
集;
[0030](32)初始化[τ
X

Y

N
]和[u,v,r]均为[0,0,0]T
,并根据设置的回合数,每回合随机生成期望靠泊位姿点η
d
;其中,τ
X

Y

N
是船舶纵荡、横荡、艏摇三个控制力;u,v,r是船舶纵荡速度、横荡速度、艏摇速度;
[0031](33)在当前状态根据目前策略选择动作,将执行的动作、获得的奖励、无人船下一个状态信息存入经验池中D

D∪{s
t
,a
t
,r(s
t
,a
t
),s
t+1
};
[0032](34)从经验池中采用N个元组,对每个元组用Critic的目标网络根据以下公式计算目标函数:
[0033][0034]其中,r
i
为每时刻无人船获得的奖励,γ为折扣率,为目标网络本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的无人船自动靠泊控制方法,其特征在于,包括以下步骤:(1)根据直接靠泊方式构建马尔科夫决策过程模型,用于建立无人船的状态空间、动作空间;并根据船舶数学模型建立动作到状态的变化过程、任务奖励函数;(2)基于靠泊环境设置训练的回合数和每回合时间步,每回合中生成无人船靠泊位姿点;(3)采用SAC算法对神经网络模型进行训练,得到神经网络模型最优参数,即动力定位控制器;(4)设置期望的靠泊位姿点,测试动力定位控制器是否能在干扰环境下通过输入状态信息,输出船舶推力大小直至到达靠泊位姿点。2.根据权利要求书1所述的一种基于强化学习的无人船自动靠泊控制方法,其特征在于,所述步骤(1)包括以下步骤:(11)构建马尔科夫决策过程模型<S,A,P,R>;(12)设置无人船的状态空间,作为控制器的输入:S=<N,E,ψ,u,v,r,N
e
,E
e

e
>
ꢀꢀꢀꢀ
(1)其中,N,E,ψ,u,v,r,N
e
,E
e

e
分别代表无人船的北东位置、艏向、纵荡速度、横荡速度、艏摇速度、北东位置误差和艏向误差;(12)设置无人船的动作空间,作为控制器的输出:A=<τ
X

Y

N
>
ꢀꢀꢀꢀ
(2)其中,τ
X

Y

N
分别代表无人船的纵荡、横荡、艏摇推力大小;(13)设置无人船的动作到状态的变化过程,用于环境的动作交互:其中,P代表无人船在该状态下采取动作后,转移到下一时刻状态的概率;(14)设置无人船的奖励,用于引导无人船完成控制任务:其中,R代表无人船每秒所获得的总奖励,奖励包括误差奖励、速度奖励、位置限制奖励。3.根据权利要求书1所述的一种基于强化学习的无人船自动靠泊控制方法,其特征在于,所述步骤(3)实现过程如下:(31)初始化两个Critic网络和Actor网络π
θ
,初始化两个Critic目标网络初始化经验池为空其中φ1和φ2为两个Critic网络网络参数,θ为Actor网络π
θ
参数,为Critic目标网络参数,D为经验池,表示空集;(32)初始化[τ
X

Y

N
]和[u,v,r]均为[0,0,0]
T
,并根据设置的回合数,每回合随机生成期望靠泊位姿点η
d
;其中,τ
X
,τ<...

【专利技术属性】
技术研发人员:袁伟芮行文杨奕飞齐亮苏贞
申请(专利权)人:江苏科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1