面向模块船运动特性分析的深度强化学习黑箱辨识方法技术

技术编号:37359719 阅读:9 留言:0更新日期:2023-04-27 07:08
本发明专利技术适用于船舶运动建模及船舶模型参数辨识技术领域,提供了面向模块船运动特性分析的深度强化学习黑箱辨识方法,包括以下步骤:确定六自由度模块船运动模型;获得用以描述模块船运动特性的平面三自由度运动模型;模拟模块船操纵运动,选取深度强化算法为辨识方法;对模块化船舶运动的模型进行辨识,得到辨识结果;从辨识结果中选择准确率最高的黑箱模型作为目标三自由度模块船运动特性分析模型。本发明专利技术复杂度低、精度高,对描述多模块船的运动具有良好的适用性,成本低,对船舶建模效率高;能够有效应对船舶在受到外界干扰时运动模型产生的变化,确保辨识结果的最优性和准确性;能够灵活应对因模块船运动模型改变而产生的不同状态。的不同状态。的不同状态。

【技术实现步骤摘要】
面向模块船运动特性分析的深度强化学习黑箱辨识方法


[0001]本专利技术属于船舶运动建模及船舶模型参数辨识
,尤其涉及面向模块船运动特性分析的深度强化学习黑箱辨识方法。

技术介绍

[0002]随着船舶智能化以及集成技术的发展,船舶上配置了越来越多的电子传感设备。模块船是指将船舶设备和传感器按功能或层次体系分解成若干有接口关系的相对独立单元,再按照标准化、通用化、系列化、组合化的设计以不同的方式组合成完整的船舶。模块化船的应用具有多样性,能够根据不同的环境和任务需求搭载不同的传感器设备,提高了船舶的扩展性和灵活性。
[0003]运动特性分析是实现船舶自主航行的关键技术之一,同时,也是一个极其复杂的问题。船舶运动会受到风浪流等环境因素的干扰而具有不确定性和非线性,虽然现有六自由度模型可以用来描述船舶运动,但是其参数过多,且各自由度存在相互耦合的情况,船舶参数难以确定。此外,模块船舶自身的运动特性,如不同模块组装带来的结构变化、船舶配载变化、动力系统响应特性等均会影响运动特性的分析与抽象表达,并且存在较为明显变化性。这些相较于常规一体船舶,会使得构建精准的模块船运动模型更为困难。
[0004]现有技术的方法,至少存在如下技术问题:为实现模块船准确且鲁棒的运动特性辨识,需要确定可精确描述模块船运动的模型,包括模型结构的确定,以及模型参数的估算。确定船舶运动模型的常规方法是基于牛顿第二运动定律,用12个微分方程描述6个自由度的船舶运动,然后根据龙格库塔、泰勒展开等数学方法表示作用在船舶上的力和力矩。这种方法虽然能准确描述船舶的操纵运动,但在6自由度方程中有大量的参数需要确定,这会极大地增加模型的计算量,多个参数的漂移现象和共线性使得参数不可估或不准确。同时,由于模块船上各种模块传感器的安装与移动,将会导致船舶吃水以及载荷发生变化,从而导致船舶运动模型发生改变,使得现有模型无法准确描述当前船舶运动状态。在目前确定模型参数的主流方法中,数据库或经验公式法受船型影响较大,应用受到限制;约束模试验法需要专门的测试设施,费时费力,而且存在“尺度效应”问题;理论与数值计算方法计算所有的水动力导数比较困难,且不能满足所需要的工程精度;而在辨识测量技术不断发展的今天,基于船模试验和自由航行试验的系统辨识方法是一种最实用有效的方法。但目前针对模块船的系统辨识方法中的白箱模型由于其参数固定,无法适应载荷条件发生变化的情况,且存在参数抵消效应、参数漂移等问题。由此可知,现有技术中的方法存在高度依赖数学模型、系统建模复杂和忽略装载情况改变的技术问题。因此,极有必要针对模块船运动建模提出一种创新方法。

技术实现思路

[0005]本专利技术的目的在于提供面向模块船运动特性分析的深度强化学习黑箱辨识方法,旨在解决上述
技术介绍
中提出的问题。
[0006]为实现上述目的,本专利技术提供如下技术方案:面向模块船运动特性分析的深度强化学习黑箱辨识方法,包括以下步骤:步骤S1:根据模块船运动坐标系以及模块船的运动描述,确定六自由度模块船运动模型;步骤S2:根据确定出的六自由度模块船运动模型以及模块船运动特性,获得用以描述模块船运动特性的平面三自由度运动模型;步骤S3:根据预设高精确度模块船运动模型,模拟模块船操纵运动,并结合传感器移动情况下模块船运动模型结构变化特点,选取深度强化算法为辨识方法;步骤S4:根据深度强化学习算法对模块化船舶运动的模型进行辨识,得到辨识结果;步骤S5:根据预设的评价标准,从辨识结果中选择准确率最高的黑箱模型作为目标三自由度模块船运动特性分析模型。
[0007]进一步的,所述步骤S1中,选取向量形式的六自由度船舶运动模型为基础,根据牛顿第二运动定律,船舶动力学模型表示为:其中,为船体质量与附体质量之和;为Coriolis与向心矩阵;为阻尼矩阵;为浮力与重力的作用力矩阵;为作用于船舶的力与力矩矩阵;为干扰力与力矩矩阵;模块船六自由度运动模型表示为:其中,为空间速度状态向量;为位置和方向状态向量;为欧拉转换矩阵;其中,c(
·
)=cos(
·
);s(
·
)=sin(
·
);t(
·
)=tan(
·
)。
[0008]进一步的,所述步骤S2中,用以描述其运动特性的平面三自由度运动模型表示为:其中,xy为模块船经纬度;u为纵荡速度;v为横荡速度;r为艏摇角速度;为舵角。
[0009]进一步的,所述步骤S3中,选取深度强化算法中的DDPG算法为辨识方法,DDPG算法
包括Actor网络、Critic网络、Target Actor网络和Target Critic网络。
[0010]进一步的,在训练阶段,从Replay Buffer中采样一个批次的模块船运动数据,采样到的数据为(s,a,s

,done),其中,s为行为;s

为下一时刻的行为;a为奖惩值;done为状态,所述Critic网络的更新过程为:利用Target Actor网络计算出状态s

下的模块船运动动作:利用Target Critic网络计算出状态动作对(s,a)的目标值:利用 Critic网络计算出状态动作对(s,a)的评估值:利用梯度下降算法最小化模块船运动预测数据与模块船运动真实数据之间的差值,从而对Critic网络中的参数进行更新:。
[0011]进一步的,所述Actor网络的更新过程为:利用Actor网络计算出状态s下的动作:利用Critic网络计算出状态动作对(s,a
new
)的评估值:利用梯度上升算法最大化累积期望回报q
new
,对Actor网络中的参数进行更新。
[0012]进一步的,所述DDPG算法采用软更新方式对目标网络进行更新,具体为:Target Actor网络的更新过程:Target Critic网络的更新过程:其中,为学习率,学习率。
[0013]进一步的,所述步骤S4中,模块船运动动力学建模中,输入包括当前时间步的状态变量和控制变量,输出包括下一时间步的状态变量,具体描述为:
[0014]其中,为模块船状态向量;为当前时间步长的控制向量;为非线性映射的矩阵形式;为下一个时间步的状态向量,由欧拉法以时间步长表示;根据公式遵循非线性映射的函数,函数用作待识别的黑箱模型:
其中u、v、r分别表示模块船的纵荡速度、横荡速度和转艏角速度;表示舵角;n表示模块船上传感器的数量。
[0015]进一步的,所述步骤S4中,辨识结果包括三自由度模块船运动特性纵荡速度、横荡速度、转艏角速度和经纬度坐标。
[0016]进一步的,所述步骤S5 的具体操作为:将提取出的建模所需模块船运动数据分为输入

输出两组,其中,输入量包括转艏角速度、横向速度、纵向速度、经纬度坐标、命令舵角和传感器的数量,输出量包括转艏角速度、横向速度、纵向速度和经纬度坐标;将对应于各运动模型的输入量和输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.面向模块船运动特性分析的深度强化学习黑箱辨识方法,其特征在于,包括以下步骤:步骤S1:根据模块船运动坐标系以及模块船的运动描述,确定六自由度模块船运动模型;步骤S2:根据确定出的六自由度模块船运动模型以及模块船运动特性,获得用以描述模块船运动特性的平面三自由度运动模型;步骤S3:根据预设高精确度模块船运动模型,模拟模块船操纵运动,并结合传感器移动情况下模块船运动模型结构变化特点,选取深度强化算法为辨识方法;步骤S4:根据深度强化学习算法对模块化船舶运动的模型进行辨识,得到辨识结果;步骤S5:根据预设的评价标准,从辨识结果中选择准确率最高的黑箱模型作为目标三自由度模块船运动特性分析模型;所述步骤S3中,选取深度强化算法中的DDPG算法为辨识方法,DDPG算法包括Actor网络、Critic网络、Target Actor网络和Target Critic网络;在训练阶段,从Replay Buffer中采样一个批次的模块船运动数据,采样到的数据为(s,a, s

,done),其中,s为行为;s

为下一时刻的行为;a为奖惩值;done为状态,所述Critic网络的更新过程为:利用Target Actor网络计算出状态s

下的模块船运动动作:利用Target Critic网络计算出状态动作对(s,a)的目标值:利用 Critic网络计算出状态动作对(s,a)的评估值:利用梯度下降算法最小化模块船运动预测数据与模块船运动真实数据之间的差值,从而对Critic网络中的参数进行更新:;所述Actor网络的更新过程为:利用Actor网络计算出状态s下的动作:利用Critic网络计算出状态动作对(s,a
new
)的评估值:利用梯度上升算法最大化累积期望回报q
new,
对Actor网络中的参数进行更新, 所述DDPG算法采用软更新方式对目标网络进行更新,具体为:Target Actor网络的更新过程:Target Critic网络的更新过程:
其中,为学习率,学习率;所述步骤S4中,模块船运动动力学建模中,输入包括当前时间步的状态变量和控制变量,输出...

【专利技术属性】
技术研发人员:朱曼张家辉文元桥曹继宁肖长诗
申请(专利权)人:武汉理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1