【技术实现步骤摘要】
面向模块船运动特性分析的深度强化学习黑箱辨识方法
[0001]本专利技术属于船舶运动建模及船舶模型参数辨识
,尤其涉及面向模块船运动特性分析的深度强化学习黑箱辨识方法。
技术介绍
[0002]随着船舶智能化以及集成技术的发展,船舶上配置了越来越多的电子传感设备。模块船是指将船舶设备和传感器按功能或层次体系分解成若干有接口关系的相对独立单元,再按照标准化、通用化、系列化、组合化的设计以不同的方式组合成完整的船舶。模块化船的应用具有多样性,能够根据不同的环境和任务需求搭载不同的传感器设备,提高了船舶的扩展性和灵活性。
[0003]运动特性分析是实现船舶自主航行的关键技术之一,同时,也是一个极其复杂的问题。船舶运动会受到风浪流等环境因素的干扰而具有不确定性和非线性,虽然现有六自由度模型可以用来描述船舶运动,但是其参数过多,且各自由度存在相互耦合的情况,船舶参数难以确定。此外,模块船舶自身的运动特性,如不同模块组装带来的结构变化、船舶配载变化、动力系统响应特性等均会影响运动特性的分析与抽象表达,并且存在较为明显变化性。 ...
【技术保护点】
【技术特征摘要】
1.面向模块船运动特性分析的深度强化学习黑箱辨识方法,其特征在于,包括以下步骤:步骤S1:根据模块船运动坐标系以及模块船的运动描述,确定六自由度模块船运动模型;步骤S2:根据确定出的六自由度模块船运动模型以及模块船运动特性,获得用以描述模块船运动特性的平面三自由度运动模型;步骤S3:根据预设高精确度模块船运动模型,模拟模块船操纵运动,并结合传感器移动情况下模块船运动模型结构变化特点,选取深度强化算法为辨识方法;步骤S4:根据深度强化学习算法对模块化船舶运动的模型进行辨识,得到辨识结果;步骤S5:根据预设的评价标准,从辨识结果中选择准确率最高的黑箱模型作为目标三自由度模块船运动特性分析模型;所述步骤S3中,选取深度强化算法中的DDPG算法为辨识方法,DDPG算法包括Actor网络、Critic网络、Target Actor网络和Target Critic网络;在训练阶段,从Replay Buffer中采样一个批次的模块船运动数据,采样到的数据为(s,a, s
’
,done),其中,s为行为;s
’
为下一时刻的行为;a为奖惩值;done为状态,所述Critic网络的更新过程为:利用Target Actor网络计算出状态s
’
下的模块船运动动作:利用Target Critic网络计算出状态动作对(s,a)的目标值:利用 Critic网络计算出状态动作对(s,a)的评估值:利用梯度下降算法最小化模块船运动预测数据与模块船运动真实数据之间的差值,从而对Critic网络中的参数进行更新:;所述Actor网络的更新过程为:利用Actor网络计算出状态s下的动作:利用Critic网络计算出状态动作对(s,a
new
)的评估值:利用梯度上升算法最大化累积期望回报q
new,
对Actor网络中的参数进行更新, 所述DDPG算法采用软更新方式对目标网络进行更新,具体为:Target Actor网络的更新过程:Target Critic网络的更新过程:
其中,为学习率,学习率;所述步骤S4中,模块船运动动力学建模中,输入包括当前时间步的状态变量和控制变量,输出...
【专利技术属性】
技术研发人员:朱曼,张家辉,文元桥,曹继宁,肖长诗,
申请(专利权)人:武汉理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。