一种概率滤波强化学习无人船控制方法、装置及终端设备制造方法及图纸

技术编号:33144810 阅读:14 留言:0更新日期:2022-04-22 13:56
本申请适用于无人驾驶控制技术领域,提供了一种概率滤波强化学习无人船控制方法、装置及终端设备,方法包括:获取t时刻的无人船的第一状态数据、第一控制信号和t

【技术实现步骤摘要】
一种概率滤波强化学习无人船控制方法、装置及终端设备


[0001]本申请属于无人驾驶控制
,尤其涉及一种概率滤波强化学习无人船控制方法、装置及终端设备。

技术介绍

[0002]近年来,由于船舶在运动过程中,极易受到海洋环境中风、浪、流等多种难以观测、预测并且快速变化的扰动因素的影响,使得船舶的安全性不高,导致国际内航运业专业工作人士日益稀缺,航运成本增加,同时引起一些由于人工失误引发的各类海运事故,因此无人船艇的驾驶技术是在提高航运效率、加强航运安全、减少环境污染等多方面具有重大意义的一项技术。
[0003]相关的无人船艇的驾驶技术通常由现代信息技术、自动控制技术和人工智能技术等汇集而成的具有感知能力、记忆能力且能通过与环境相互作用学习适应环境并自主决策的无人船控制方法、传统的基于无模型强化学习算法的无人船控制方法,或传统的基于模型强化学习算法的无人船控制方法来实现。
[0004]其中,传统的自主决策无人船控制方法主要依赖于根据船舶的先验知识进行建模,再根据模型设计控制器。然而,这种方法高度依赖于参数,缺乏应对复杂的海洋环境下多种任务的泛化能力。
[0005]而传统的基于无模型强化学习算法的无人船控制方法无法支持服从随机分布的状态,因此难以在复杂的海洋环境下的无人船艇上完成强化学习收敛,应对复杂的海洋环境下多种任务的控制能力差。传统的基于模型强化学习算法的无人船控制方法(以概率推断学习控制算法(probabilistic inference for learning control,PILCO为代表)能够通过挂载概率模型实现对环境不确定性的量化,但需要执行大量的计算操作,应对复杂的海洋环境下多种任务的实时性能和稳定性能差。

技术实现思路

[0006]本申请实施例提供了一种概率滤波强化学习无人船控制方法、装置及终端设备,可以解决传统无人船控制方法应对复杂海洋环境的泛化能力、控制能力及稳定性能差的问题。
[0007]第一方面,本申请实施例提供了一种概率滤波强化学习无人船控制方法,包括:
[0008]获取t时刻的所述无人船的第一状态数据、第一控制信号和t

1时刻的第二控制信号,所述第一控制信号用于控制所述无人船在所述t时刻的运动状态,所述第二控制信号用于控制所述无人船在所述t

1时刻的运动状态;
[0009]对所述第一状态数据、所述第一控制信号及所述第二控制信号进行偏差补偿处理,得到偏差补偿信号;
[0010]根据所述偏差补偿信号进行规划,得到目标控制信号;
[0011]根据所述目标控制信号控制所述无人船在t+1时刻的运动状态。
[0012]第二方面,本申请实施例提供了一种概率滤波强化学习无人船控制装置,包括:
[0013]数据通信模块,用于获取t时刻的所述无人船的第一状态数据、第一控制信号和t

1时刻的第二控制信号,所述第一控制信号用于控制所述无人船在所述t时刻的运动状态,所述第二控制信号用于控制所述无人船在所述t

1时刻的运动状态;
[0014]数据处理模块,用于对所述第一状态数据、所述第一控制信号及所述第二控制信号进行偏差补偿处理,得到偏差补偿信号;
[0015]信号预测模块,用于根据所述偏差补偿信号进行规划,得到目标控制信号;
[0016]控制模块,用于根据所述目标控制信号控制所述无人船在t+1时刻的运动状态。
[0017]第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的概率滤波强化学习无人船控制方法。
[0018]第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的概率滤波强化学习无人船控制方法。
[0019]第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的概率滤波强化学习无人船控制方法。
[0020]本申请实施例与现有技术相比存在的有益效果是:获取无人船在t时刻的第一状态数据、第一控制信号及t

1时刻的第二控制信号,对第一状态数据、第一控制信号和第二控制信号进行偏差补偿处理得到偏差补偿信号,从而根据偏差补偿信号规划得到t+1时刻的目标控制信号,以根据目标控制信号控制无人船艇在t+1时刻的驾驶状态,实现对不断变化复杂海洋环境中扰动因素的实时响应,从而提高应对复杂海洋环境的泛化能力、控制能力及稳定性能。
[0021]可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
[0022]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]图1是本申请一实施例提供的概率滤波强化学习无人船控制系统的结构示意图;
[0024]图2是本申请一实施例提供的概率滤波强化学习无人船控制方法的流程示意图;
[0025]图3是本申请一实施例提供的概率滤波强化学习无人船控制系统的计算流程示意图。
[0026]图4是本申请一实施例提供的概率滤波强化学习无人船控制方法步骤S102的流程示意图;
[0027]图5是本申请一实施例提供的概率滤波强化学习无人船控制方法步骤S103的流程示意图;
[0028]图6是本申请另一实施例提供的概率滤波强化学习无人船控制方法的另一流程示意图;
[0029]图7是本申请一实施例提供的概率滤波强化学习无人船控制装置的结构示意图;
[0030]图8是本申请实施例提供的终端设备的结构示意图。
具体实施方式
[0031]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
[0032]应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0033]还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0034]如在本申请说明书和所附权利要求书中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种概率滤波强化学习无人船控制方法,其特征在于,包括:获取t时刻的所述无人船的第一状态数据、第一控制信号和t

1时刻的第二控制信号,所述第一控制信号用于控制所述无人船在所述t时刻的运动状态,所述第二控制信号用于控制所述无人船在所述t

1时刻的运动状态;对所述第一状态数据、所述第一控制信号及所述第二控制信号进行偏差补偿处理,得到偏差补偿信号;根据所述偏差补偿信号进行规划,得到目标控制信号;根据所述目标控制信号控制所述无人船在t+1时刻的运动状态。2.如权利要求1所述的概率滤波强化学习无人船控制方法,其特征在于,所述对所述第一状态数据、所述第一控制信号及所述第二控制信号进行偏差补偿处理,得到偏差补偿信号,包括:将所述第一状态数据和第二控制信号输入至预训练的基于概率滤波的强化学习模型,对所述第一状态数据和所述第二控制信号进行概率滤波处理,得到预测状态信号;对所述预测状态信号和所述第一控制信号进行偏差补偿处理,得到偏差补偿信号。3.如权利要求1所述的概率滤波强化学习无人船控制方法,其特征在于,所述根据所述偏差补偿信号进行规划,得到目标控制信号,包括:将所述偏差补偿信号输入至预测控制器并进行求解,使所述预测控制器的目标函数满足预设的约束条件,得到所述目标控制信号。4.如权利要求3所述的概率滤波强化学习无人船控制方法,其特征在于,所述目标函数为:其中,s表示时间,H表示对于服从高斯分布的偏差补偿的预测分布,x
s
表示第s时刻的偏差补偿信号,u
s
表示第s时刻待优化的预设控制信号,表示目标控制信号序列,表示t+1时刻的目标控制信号。5.如权利要求3所述的概率滤波强化学习无人船控制方法,其特征在于,所述约束条件:所述目标控制信号位于预设数据范围内,所述预设数据范围包括最大预设数值和最小预设数值:[μ
s+1
,∑
s+1
]=h(μ
s
,∑
s
,u
s
),x
s
~N(μ
s
,∑

【专利技术属性】
技术研发人员:崔允端李慧云彭磊
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1