一种离散时间强化学习无人艇航向跟踪控制方法及系统技术方案

技术编号:38000578 阅读:8 留言:0更新日期:2023-06-30 10:14
本发明专利技术提供一种离散时间强化学习无人艇航向跟踪控制方法及系统。本发明专利技术方法,包括:建立无人艇航向离散时间非线性动力学模型;对建立的无人艇航向离散时间非线性动力学模型进行系统变换,建立无人艇航向跟踪变化系统;设计无人艇强化学习评价模块;设计无人艇航向跟踪控制器,从而得到无人艇系统舵角指令,将舵角指令传递给无人艇舵机输出无人艇航向角,进而实现无人艇航向跟踪控制。本发明专利技术针对非严格反馈形式的无人艇系统,运用强化学习方法,利用神经网络构造补偿器,解决离散时间非严格反馈无人艇系统控制设计采用backstepping方法设计控制器时存在的子系统无关联问题,实现控制系统与环境之间的交互,降低控制系统对被控对象模型精度的依赖。对象模型精度的依赖。对象模型精度的依赖。

【技术实现步骤摘要】
一种离散时间强化学习无人艇航向跟踪控制方法及系统


[0001]本专利技术涉及船舶自动控制
,具体而言,尤其涉及一种离散时间强化学习无人艇航向跟踪控制方法及系统。

技术介绍

[0002]21世纪的海洋世纪,无人艇是一种重要的海洋装备,能够代替人们执行复杂危险的作业任务,在军事和民用领域内有广泛地应用。受装载条件、航行条件等因素影响,无人艇航向动力学模型变为一种不确定非线性模型,这为无人艇航向控制带来一定的挑战。针对上述控制问题,许多智能算法应用于无人艇航向控制,如鲁棒控制、滑模控制、自适应控制、模型预测控制等。
[0003]现有的控制方法通过简化风、浪、流和涌等因素对船体产生的强干扰,导致控制精度不足,通过加强无人艇系统与环境之间的交互能够提供一种新的解决思路。此外,现有的多数研究结果将无人艇运动数学模型简化为一种严格反馈形式,无法针对更为一般形式的非严格反馈形式的离散时间系统进行控制设计。因此,设计一种通用的强化学习无人艇航向控制方法迫在眉睫。

技术实现思路

[0004]根据上述提出的技术问题,提供一种离散时间强化学习无人艇航向跟踪控制方法及系统。本专利技术主要面向非严格反馈形式的离散时间无人艇系统,通过神经网络补偿器,提出了一种通用的离散时间控制设计方法,通过强化学习方法,可以提高系统与环境之间的交互。
[0005]本专利技术采用的技术手段如下:
[0006]一种离散时间强化学习无人艇航向跟踪控制方法,包括:
[0007]建立无人艇航向离散时间非线性动力学模型;
[0008]对建立的无人艇航向离散时间非线性动力学模型进行系统变换,建立无人艇航向跟踪变化系统;
[0009]基于建立的无人艇航向跟踪变化系统,设计无人艇强化学习评价模块;
[0010]基于设计的无人艇强化学习评价模块,设计无人艇航向跟踪控制器,从而得到无人艇系统舵角指令,将舵角指令传递给无人艇舵机输出无人艇航向角,进而实现无人艇航向跟踪控制。
[0011]进一步地,所述建立的无人艇航向离散时间非线性动力学模型,具体为:
[0012][0013]其中,x1(k)为无人艇航向角,角标1为第1个子系统,k为时刻;x2(k)为航向角速度,
角标2为第2个子系统;u(k)为舵角输入;y(k)为系统输出;为航向信息向量;和为未知光滑的非线性函数;和为未知有界光滑函数,并满足和和和是未知的正数;d(k)为未知有界的外界干扰,并满足外界干扰,并满足是未知的正数。
[0014]进一步地,所述对建立的无人艇航向离散时间非线性动力学模型进行系统变换,建立无人艇航向跟踪变化系统,包括:
[0015]根据无人艇航向信息以及参考信号,计算航向角动态误差以及航向角速度与虚拟控制律的动态误差,得到无人艇系统跟踪动态误差以及无人艇动力学模型变换系统,具体为:
[0016]无人艇船载计算机利用航向信息计算航向跟踪动态误差:
[0017]e1(k)=x1(k)

y
d
(k)
[0018]e2(k)=x2(k)

α(k)
[0019]其中,e1(k)为无人艇航向角与参考信号的航向角动态误差;e2(k)为无人艇航向角速度与虚拟控制律α(k)的误差信号;y
d
(k)为光滑有界的参考信号;
[0020]为了便于对无人艇系统进行航向跟踪控制设计,并避免子系统无关联问题,对无人艇航向离散时间非线性动力学模型进行系统变换,建立无人艇航向跟踪变化系统:
[0021][0022]其中,F1(
·
)和F2(
·
)为非线性光滑未知函数;G1(
·
)和G2(
·
)为非线性光滑函数,并满足和
[0023]进一步地,所述设计无人艇强化学习评价模块,具体包括:
[0024]基于无人艇船载计算机的航向角动态误差e1(k)和跟踪性能阈值μ,设计效用函数如下:
[0025][0026]其中,表示当前跟踪性能满足要求,表示当前跟踪性能不满足要求;
[0027]根据贝尔曼原理,利用效用函数设计策略效用函数q(k),如下:
[0028][0029]其中,0<β<1为设计参数,N为时间范围;
[0030]根据神经网络万能逼近定理,得到策略效用函数q(k),如下:
[0031][0032]其中,θ
c
为期望权值向量,并满足为期望权值向量,并满足表示未知的正常数,下角标c表示评价
模块;上角标T表示转置运算;为有界的高斯基函数;δ
c
为逼近误差,并满足为逼近误差,并满足为未知的正常数;
[0033]定义贝尔曼误差Ξ
c
(k),如下:
[0034][0035]其中,为策略效用函数q(k)的估计,表示理想权值θ
c
的估计;
[0036]根据定义的贝尔曼误差Ξ
c
(k),定义代价函数采用梯度下降法最小化代价函数J
c
(k),得到评价模块神经网络自适应律为
[0037][0038]其中,λ
c
为学习速率。
[0039]进一步地,所述基于设计的无人艇强化学习评价模块,设计无人艇航向跟踪控制器,从而得到无人艇系统舵角指令,将舵角指令传递给无人艇舵机输出无人艇航向角,进而实现无人艇航向跟踪控制,包括:
[0040]设计无人艇强化学习系统执行模块中的虚拟控制律α(k)和神经网络自适应律
[0041]设计无人艇强化学习系统执行模块中的控制律u(k)和神经网络自适应律
[0042]进一步地,所述设计无人艇强化学习系统执行模块中的虚拟控制律α(k)和神经网络自适应律具体包括:
[0043]定义执行模块中第一步的神经网络补偿器φ1(k),如下:
[0044][0045]其中,θ1为期望权值向量,并满足为期望权值向量,并满足表示未知的正常数,下角标1表示第一个子系统;为神经网络补偿器φ1(k)的输入向量;
[0046]根据神经网络补偿器φ1(k),设计虚拟控制律α(k),如下:
[0047][0048]其中,表示理想权值θ1的估计;
[0049]定义第一个执行模块中的策略效用函数Ξ1(k),如下:
[0050][0051]其中,k1=k

1;
[0052]根据策略效用函数,定义代价函数采用梯度下降法最小化代价函数J1(k),得到第一个执行模块神经网络自适应律,如下:
[0053][0054]其中,λ1为学习速率。
[0055]进一步地,所述设计无人艇强化学习系统执行模块中的控制律u(k)和神经网络自
适应律具体包括:
[0056]设计控制律u(k)为
[0057][0058]其中,c1>0和c2>0为设计参数;表示神经网络理想权值θ2的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种离散时间强化学习无人艇航向跟踪控制方法,其特征在于,包括:建立无人艇航向离散时间非线性动力学模型;对建立的无人艇航向离散时间非线性动力学模型进行系统变换,建立无人艇航向跟踪变化系统;基于建立的无人艇航向跟踪变化系统,设计无人艇强化学习评价模块;基于设计的无人艇强化学习评价模块,设计无人艇航向跟踪控制器,从而得到无人艇系统舵角指令,将舵角指令传递给无人艇舵机输出无人艇航向角,进而实现无人艇航向跟踪控制。2.根据权利要求1所述的离散时间强化学习无人艇航向跟踪控制方法,其特征在于,所述建立无人艇航向离散时间非线性动力学模型,包括:采集无人艇航向信息,并将采集到的无人艇航向信息发送至船载计算机,船载计算机考虑无人艇回转非线性特性,建立无人艇航向离散时间非线性动力学模型;所述无人艇航向信息包括无人艇舵机测量的舵角信息和罗经测量的航向角信息以及航向角速度信息。3.根据权利要求1所述的离散时间强化学习无人艇航向跟踪控制方法,其特征在于,所述建立的无人艇航向离散时间非线性动力学模型,具体为:其中,x1(k)为无人艇航向角,角标1为第1个子系统,k为时刻;x2(k)为航向角速度,角标2为第2个子系统;u(k)为舵角输入;y(k)为系统输出;为航向信息向量;和为未知光滑的非线性函数;和为未知有界光滑函数,并满足和和和是未知的正数;d(k)为未知有界的外界干扰,并满足界干扰,并满足是未知的正数。4.根据权利要求1所述的离散时间强化学习无人艇航向跟踪控制方法,其特征在于,所述对建立的无人艇航向离散时间非线性动力学模型进行系统变换,建立无人艇航向跟踪变化系统,包括:根据无人艇航向信息以及参考信号,计算航向角动态误差以及航向角速度与虚拟控制律的动态误差,得到无人艇系统跟踪动态误差以及无人艇动力学模型变换系统,具体为:无人艇船载计算机利用航向信息计算航向跟踪动态误差:e1(k)=x1(k)

y
d
(k)e2(k)=x2(k)

α(k)其中,e1(k)为无人艇航向角与参考信号的航向角动态误差;e2(k)为无人艇航向角速度与虚拟控制律α(k)的误差信号;y
d
(k)为光滑有界的参考信号;为了便于对无人艇系统进行航向跟踪控制设计,并避免子系统无关联问题,对无人艇航向离散时间非线性动力学模型进行系统变换,建立无人艇航向跟踪变化系统:
其中,F1(
·
)和F2(
·
)为非线性光滑未知函数;G1(
·
)和G2(
·
)为非线性光滑函数,并满足和5.根据权利要求1所述的离散时间强化学习无人艇航向跟踪控制方法,其特征在于,所述设计无人艇强化学习评价模块,具体包括:基于无人艇船载计算机的航向角动态误差e1(k)和跟踪性能阈值μ,设计效用函数如下:其中,表示当前跟踪性能满足要求,表示当前跟踪性能不满足要求;根据贝尔曼原理,利用效用函数设计策略效用函数q(k),如下:其中,0<β<1为设计参数,N为时间范围;根据神经网络万能逼近定理,得到策略效用函数q(k),如下:其中,θ
c
为期望权值向量,并满足为期望权值向量,并满足表示未知的正常数,下角标c表示评价模块;上角标T表示转置运算;为有界的高斯基函数;δ
c
为逼近误差,并满足为逼近误差,并满足为未知的正常数;定义贝尔曼误差Ξ
c
(k),如下:其中,为策略效用函数q(k)的估计,表示理想权值θ
c
的估计;根据定义的贝尔曼误差Ξ
c
(k),定义代价函数采用梯度下降法最小化代价函数J
...

【专利技术属性】
技术研发人员:白伟伟章文俊刘强
申请(专利权)人:大连海事大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1