一种基于强化学习的自动驾驶船舶主动容错路径跟踪控制方法技术

技术编号：39861658 阅读：12 留言：0更新日期：2023-12-30 12:55

本发明专利技术公开了一种基于强化学习的自动驾驶船舶

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的自动驾驶船舶主动容错路径跟踪控制方法

[0001]本专利技术涉及自动驾驶船舶
，具体的，涉及一种基于强化学习的自动驾驶船舶主动容错路径跟踪控制方法
。

技术介绍

[0002]近年来，自动驾驶船舶
(ASV)
由于有希望替代人工操纵船舶执行危险
、
复杂及昂贵的海上任务
(
如全球航运
、
环境监测
、
资源勘探等
)
而受到广泛关注
。
执行任务时，需要
ASV
在复杂环境下自主执行各项基本任务，如任务规划
、
轨迹跟踪
、
避碰等
。
同时，
ASV
需具备足够的安全性和可靠性以避免灾难性后果
。
在目前的应用中，由于制导
、
导航和控制技术的进步，
ASV
已经能够在正常条件下执行相应任务
。
然而，长时间运行时，
ASV
的安全性和可靠性容易受到系统模块故障
、
系统组件退化或传感器故障等的影响，从而性能下降
、
系统不稳定，甚至造成不可估量的损失
。
容错控制
(FTC)
是一种在遇到传感器故障或系统模块缺陷等问题后恢复系统性能并保持系统安全运行的技术，
ASV
的安全性和可靠性问题激发了对
FTC
的大量研究/>。
[0003]一种
FTC
方案是直接采用鲁棒控制方法或自适应控制方法
。
这种方案属于被动
FTC
，其关键在于控制器对系统不确定性
、
外部干扰和所有低量级的预期故障保持足够的鲁棒性
。
因此，在被动
FTC
中，控制器以单一的结构适应所有情况，包括正常和故障情况
。
然而在实际应用中，系统故障只是少数情况，这种“以不变应万变”的方式过于保守，且其容错能力也有限，特别是在系统存在不确定性或外部干扰的情况下
。
考虑到被动
FTC
的上述局限性，研究人员致力于寻找一种替代方案，该方案能够通过使用故障诊断和识别机制
(FDI)
监测系统正常状况以主动响应系统故障，也就是主动
FTC
，主动
FTC
可以自行重新配置以恢复系统性能并确保系统安全运行
。
大多数
FTC
算法，无论被动或主动，都属于基于模型的方法
。
被动
FTC
需要知道系统故障的“最坏情况”，以便设计鲁棒控制器
。
主动
FTC
虽然比被动
FTC
更加灵活，但需要故障模型以构建控制重构机制，但是，想要获得
ASV
在不同故障下的所有退化模型几乎是不可能的
。
因此，为了减少对系统建模的依赖，强化学习
(RL)
被认为是动态系统
FTC
的一种有效方法
。
基于
RL
的控制方法通过奖励有利输入和惩罚不利输入来最大化奖励函数，整个学习过程使用系统与环境交互产生的数据样本
。
基于
RL
的控制方法基本不需要系统模型，因此它被认为是一种无模型方法，这种无模型特性恰好适用于具有显著模型不确定性和传感器故障的
ASV。
基于
RL
，在各种故障的精确退化模型未知时仍可以得到主动
FTC
控制律，但如果对控制律的初始值不做假设，则需要纯无模型
RL
来保证闭环稳定性
。
将
RL
应用于
FTC
问题时，尽管模型信息不再必需，许多现有的基于
RL
的算法最终还是会学习成为一种最优鲁棒被动控制律，以确保系统在“最坏情况”下的性能，利用
RL
开发主动
FTC
控制律仍然是一个悬而未决的问题
。

技术实现思路

[0004]针对现有的
ASV
控制方法无法克服传感器故障和模型不确定的问题，本专利技术提出一种基于强化学习的
ASV
主动容错路径跟踪控制方法
。
[0005]采用的技术方案及步骤如下：
[0006]一种基于强化学习的
ASV
主动容错路径跟踪控制方法，所述方法包括步骤如下：
[0007]基于
ASV
的机动模块建立三自由度非线性动力学模型，所述机动模块描述
ASV
在来自推进器
、
舵几种外力和扭矩下的纵荡
、
横荡和艏摇运动；
[0008]基于非线性动力学模型获得标称模型；
[0009]建立
ASV
的总体控制律，使得非线性动力学模型的状态能够跟踪标称模型的状态；所述总体控制律包括用于保证基本跟踪的基础路径跟踪控制律
、
用于补偿系统不确定性和传感器故障的基于强化学习的容错鲁棒控制律；所述传感器故障采用
FDI
检测并估计其大小
。
[0010]本专利技术的有益效果如下：
[0011]利用强化学习的无模型特性，减少容错控制设计对模型信息的依赖；引入基于模型的基础路径跟踪控制律，提高学习效率，降低对传感器故障估计精度的依赖
。
附图说明
[0012]图1是本专利技术所提出的控制方法流程图
。
[0013]图2是
ASV
的参考坐标系
。
[0014]图3是模型参考的控制架构
。
[0015]图4是基于视距法的示意图
。
[0016]图5是基于
RL
的容错控制方法的控制架构
。
[0017]图6是标称模型在基础控制律下的路径跟踪性能
。
[0018]图7是基于
RL
的
ASV
主动容错路径跟踪控制方法的学习曲线
。
[0019]图8是
ASV
在正常状态下的路径跟踪性能
。
[0020]图9是正常状态下的航向角响应
。
[0021]图
10
是正常状态下的纵荡速度响应
。
[0022]图
11
是正常状态下的控制输入
τ
r。
[0023]图
12
是正常状态下的控制输入
τ
r。
[0024]图
13
是不同故障大小下的航向角误差响应
。
[0025]图本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于强化学习的
ASV
主动容错路径跟踪控制方法，其特征在于：所述方法包括步骤如下：基于
ASV
的机动模块建立三自由度模型的非线性动力学模型；所述机动模块描述
ASV
在来自推进器
、
舵几种外力和扭矩下的纵荡
、
横荡和艏摇运动；基于非线性动力学模型获得标称模型；建立
ASV
的总体控制律，使得非线性动力学模型的状态能够跟踪标称模型的状态；所述总体控制律包括用于保证基本跟踪性能的基础路径跟踪控制律
、
用于补偿系统不确定性和传感器故障的基于强化学习的容错鲁棒控制律；所述传感器故障采用
FDI
检测并估计其大小
。2.
根据权利要求1所述的基于强化学习的
ASV
主动容错路径跟踪控制方法，其特征在于：所述非线性动力学模型公式如下：其中，矩阵其中，矩阵式中，01
×2，02
×1具有适当维数的零矩阵，
R(
ψ
p
)
为旋转矩阵：
ψ
p
表示航向角；
x
＝
[
η
T
,
ν
T
]
T
表示
ASV
的状态变量；表示惯性矩阵，矩阵包括科里奥利项和向心项；表示输入矩阵，
η
表示坐标向量，
(x
p
,y
p
)
表示
ASV
在惯性系中的水平位置；
v
表示速度向量，为
u
p
船体坐标系下的纵荡速度，
v
p
船体坐标系下的横荡速度，
r
p
为航向角速度
。3.
根据权利要求2所述的基于强化学习的
ASV
主动容错路径跟踪控制方法，其特征在于：所述的标称模型，表达式如下：其中，其中，其中，是正定的，则均为负
。4.
根据权利要求3所述的基于强化学习的
ASV
主动容错路径跟踪控制方法，其特征在于：所述的基础路径跟踪控制律采用基于视距方法结合参考路径计算得到，其包括
ASV
的外环速度和航向角组成的制导律
、
内环跟踪控制律
。5.
根据权利要求4所述的基于强化学习的
ASV
主动容错路径跟踪控制方法，其特征在于：采用基于视距方法结合参考路径计算
ASV
的外环速度和航向角组成的制导律，具体如
下：设参考路径为
[x
d
(s),y
d
(s),
ψ
d
(s)]
T
，其中
s
代表路径参数，
x
d
、y
d
表示路径上的参考点的位置坐标，
ψ
d
表示期望航向角；设
x
d
(s)、y
d
(s)
关于
s
都是连续的，则沿参考路径的切向量为
[x
′
d
(s),y
′
d
(s)]
T
，其中，其中分别是
x
d
(s)、y
d
(s)
关于
s
的一阶导；选择切向量作为沿参考路径运动时的
x
轴，则期望航向角由下式得到：其中，分别表示
x
d
(s)、y
d
(s)
对时间的微分：期望航向角速率为：在基于视距方法中，期望航向角基于参考点
(x
d
(s),y
d
(s))
上切向量方向的前向视距
L
计算得到，而参考点是参考路径上距离
ASV
最近的点；令
δ
x
＝
x
d
‑
x
p
，
δ
y
＝
y
d
‑
y
p
，则有由此建立的制导律公式如下：其中，
u
r
和
ψ
r
分别代表参考外环速度和航向角；表示期望的跟踪速度，对于给定的参考路径，
u
d
为一个定值，即
6.
根据权利要求5所述的基于强化学习的
ASV
主动容错路径跟踪控制方法，其特征在于：设
ε
u
＝
u
p
‑
u
r
,
ε
ψ
＝
ψ
p
‑
ψ
r
，
ε
r
＝
r
p
‑
r
r
，其中，为参考航向角速度，基于标称模型
(6)
和制导律
(9)
，建立的内环跟踪控制律的公式如下：其中，
k
u
,k
r
,k
ψ
＞0为人为设定的控制参数，其中，和根据参考路径和系统状态信息计算得到
。7.
根据权利要求6所述的基于强化学习的
ASV
主动容错路径跟踪控制方法，其特征在于：所述的传感器故障包括加速度计故障
、
陀螺仪故障；其中，加速度计故障，计算如下：
设
ASV
在惯性系中的位置
p
＝
[x
p
,y
p
]

【专利技术属性】
技术研发人员：张清瑞，刘赟韵，于程浩，章登宇，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人