【技术实现步骤摘要】
一种概率滤波强化学习无人船控制方法、装置及终端设备
[0001]本申请属于无人驾驶控制
,尤其涉及一种概率滤波强化学习无人船控制方法、装置及终端设备。
技术介绍
[0002]近年来,由于船舶在运动过程中,极易受到海洋环境中风、浪、流等多种难以观测、预测并且快速变化的扰动因素的影响,使得船舶的安全性不高,导致国际内航运业专业工作人士日益稀缺,航运成本增加,同时引起一些由于人工失误引发的各类海运事故,因此无人船艇的驾驶技术是在提高航运效率、加强航运安全、减少环境污染等多方面具有重大意义的一项技术。
[0003]相关的无人船艇的驾驶技术通常由现代信息技术、自动控制技术和人工智能技术等汇集而成的具有感知能力、记忆能力且能通过与环境相互作用学习适应环境并自主决策的无人船控制方法、传统的基于无模型强化学习算法的无人船控制方法,或传统的基于模型强化学习算法的无人船控制方法来实现。
[0004]其中,传统的自主决策无人船控制方法主要依赖于根据船舶的先验知识进行建模,再根据模型设计控制器。然而,这种方法高度依赖于参数,缺 ...
【技术保护点】
【技术特征摘要】
1.一种概率滤波强化学习无人船控制方法,其特征在于,包括:获取t时刻的所述无人船的第一状态数据、第一控制信号和t
‑
1时刻的第二控制信号,所述第一控制信号用于控制所述无人船在所述t时刻的运动状态,所述第二控制信号用于控制所述无人船在所述t
‑
1时刻的运动状态;对所述第一状态数据、所述第一控制信号及所述第二控制信号进行偏差补偿处理,得到偏差补偿信号;根据所述偏差补偿信号进行规划,得到目标控制信号;根据所述目标控制信号控制所述无人船在t+1时刻的运动状态。2.如权利要求1所述的概率滤波强化学习无人船控制方法,其特征在于,所述对所述第一状态数据、所述第一控制信号及所述第二控制信号进行偏差补偿处理,得到偏差补偿信号,包括:将所述第一状态数据和第二控制信号输入至预训练的基于概率滤波的强化学习模型,对所述第一状态数据和所述第二控制信号进行概率滤波处理,得到预测状态信号;对所述预测状态信号和所述第一控制信号进行偏差补偿处理,得到偏差补偿信号。3.如权利要求1所述的概率滤波强化学习无人船控制方法,其特征在于,所述根据所述偏差补偿信号进行规划,得到目标控制信号,包括:将所述偏差补偿信号输入至预测控制器并进行求解,使所述预测控制器的目标函数满足预设的约束条件,得到所述目标控制信号。4.如权利要求3所述的概率滤波强化学习无人船控制方法,其特征在于,所述目标函数为:其中,s表示时间,H表示对于服从高斯分布的偏差补偿的预测分布,x
s
表示第s时刻的偏差补偿信号,u
s
表示第s时刻待优化的预设控制信号,表示目标控制信号序列,表示t+1时刻的目标控制信号。5.如权利要求3所述的概率滤波强化学习无人船控制方法,其特征在于,所述约束条件:所述目标控制信号位于预设数据范围内,所述预设数据范围包括最大预设数值和最小预设数值:[μ
s+1
,∑
s+1
]=h(μ
s
,∑
s
,u
s
),x
s
~N(μ
s
,∑
【专利技术属性】
技术研发人员:崔允端,李慧云,彭磊,
申请(专利权)人:中国科学院深圳先进技术研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。