一种考虑海浪干扰的无人艇回收分布式决策仿真系统技术方案

技术编号:35925381 阅读:27 留言:0更新日期:2022-12-10 11:17
本发明专利技术公开了一种考虑海浪干扰的无人艇回收分布式决策仿真系统,完成海洋作业中母船对无人艇的自动回收任务。首先,搭建无人艇回收任务所需的仿真环境;基于DuelingNetwork算法设计决策模块,并针对应用场景优化神经网络结构,使决策模块具有短时记忆功能;实现分布式通信机制,将决策模块置于服务器端,环境模块置于客户端;最后,启动服务器与客户端程序,控制无人艇抽象的智能体完成回收任务。该系统针对实际复杂海况,设计模拟物理交互的仿真环境;采用深度强化学习算法,使得AI控制器应对复杂场景时,具有更强的鲁棒性,且让模型具有迁移学习能力;分布式通信机制将训练与控制独立运行,便于实现离线训练,同时可以实现远程控制效果。控制效果。控制效果。

【技术实现步骤摘要】
一种考虑海浪干扰的无人艇回收分布式决策仿真系统
(一)

[0001]本专利技术属于人工智能与海洋工程
,特别涉及一种考虑海浪干扰的无人艇回收分布式决策仿真系统。
(二)
技术介绍

[0002]海面无人艇作为海洋环境设备的一员,是一种自主式海洋航行器,能够在无人为参与控制下,独立航行并执行任务,以其高灵活性、可拓展性和强自主性等独特优势发挥着不可或缺的作用。目前,海面无人艇归航引导回收需要花费大量的人力物力,难以适应当代海洋作业的需求。首先,无人艇动力学和动力学模型参数不确定性,导致在工程应用中控制器性能差;其次,海面环境复杂,未知扰动繁多,给归航路径规划和轨迹跟踪带来了极大挑战;最后,母船的回收装置与海面无人艇之间自主对接受到诸多限制,高精度引导回收控制是亟待解决的难点。
[0003]传统的控制算法,面对复杂的海洋环境,相较于地面的自动驾驶任务,无人艇的控制为欠驱动的运动模型,常常不能得到很好的效果。论文《混合海浪作用下无人艇泊船姿态自动控制方法》中设定海浪的遭遇角为45
°
,90
°
和130
°
,测试3种对比控制方法的艏摇角、横摇角以及舵角的响应角度,设计特定的海浪遭遇角进行仿真实验,实验对比详尽,但在仿真实验中并未采用模拟物理交互的方式实现无人艇控制,然而真实海浪运动的情况更复杂,仅通过特定遭遇角无法还原实际海浪作用;论文《基于深度强化学习的无人艇控制研究》中采用DDPG算法,并将算法融入到传统控制模型中。虽然该论文中同样采用了强化学习算法对船体进行控制,但对于海浪的数学建模过于简单,且只考虑了横摇角对船体的影响,难以证明方案可应用于实际环境。
(三)
技术实现思路

[0004]本专利技术旨在提供一种考虑海浪干扰的无人艇回收分布式决策仿真系统,提供一种虚拟环境下的无人艇决策、训练与控制方案。利用其分布式通信的特点,更易于使用迁移学习技术将该方案应用到现实场景中。为模拟复杂海况中海浪对控制器的扰动,本方案中未采用控制领域中常用的海浪模拟方法,即间接的将海浪扰动进行数学建模,并作为扰动信号加入控制器进行反馈控制;而是采用直接物理仿真的方式,在虚拟环境中基于规则生成海浪波,计算机通过计算无人艇与流体的实时物理交互,模拟海浪对船体的影响。采用强化学习算法,使智能体可观测到环境的部分信息并做出动作,实现无人艇的自主训练与决策。在复杂海况下,相比传统控制器具有更强的鲁棒性,可以更好的应对海浪干扰。
[0005]为实现上述目的,本专利技术采用如下技术方案:
[0006]S1、在虚幻引擎(UE4)中,搭建无人艇回收任务的仿真环境并完成对接舱体的3D建模,具体包括以下子步骤:
[0007]S11、在仿真环境中,利用多个Gerstner波的叠加,实现对于复杂海况中的海浪环境的模拟;
[0008]S12、将无人艇抽象为智能体,为无人艇设计在离散动作空间下的运动控制器,动作空间中包含左转、右转、前进、后退、左前方向行进、右前方向行进、左后方向行进、右后方向行进以及无动作,共计九种可执行动作;
[0009]S13、对与无人艇实现对接的舱体进行建模,对接舱上设置三个不共线的可观测点,作为环境中状态空间的一部分,无人艇可观测到对接舱体实时相对位姿;
[0010]S14、完成环境规则模块的搭建,包括智能体随机初始化生成位置、奖励机制设定、碰撞机制设定以及胜利和失败的判定条件设定;
[0011]具体的奖励函数设置,可由如下公式表示:
[0012][0013]式中:α,β,γ为平衡距离变化与累计碰撞力对奖励的影响所设计的权重系数,

ε为船体损毁惩罚系数,

μ为出界惩罚系数,

η为翻船惩罚系数,φ为终局奖励系数,α,β,γ,ε,μ,η,φ均为可调超参数,是常数,d
t
表示本次通信过程无人艇与对接舱的多个可观测点最终的平均距离大小,d
t
‑1为上一次通信过程无人艇与对接舱的多个可观测点最终的平均距离大小,d
max
表示无人艇与最终目标点限制的最大距离,如果距离超出d
max
则代表无人艇超出地图边界,F
c
表示本轮任务中无人艇与对接舱产生过的累计碰撞力,累计碰撞力越大,产生的惩罚越大,当累计碰撞力大于设置的上限F
max
,将会判定本轮为负,给予

ε的惩罚;当无人艇行驶开出地图边界,同样判负,给予

μ的惩罚;当无人艇因为海浪或者碰撞造成船体打翻,判负并给予

η的惩罚,最终如果任务胜利,会给予φ的终局奖励;
[0014]S2、基于DuelingNetwork算法,搭建智能体决策模块,针对本应用场景,优化神经网络结构,使决策模块具有短时记忆功能,可以让智能体在该模型下能更好的预测未来状态,具体包括以下子步骤:
[0015]S21、分别记录过去四个时刻下对接舱与无人艇的相对位置,作为智能体的部分可观测的状态信息,计算每个时刻下的三个观测点与无人艇的坐标之差:
[0016]P
it
(x,y,z)=Q
it
(x,y,z)

W
t
(x,y,z)
[0017]式中:Q
it
(x,y,z)为对接舱可观测点的坐标,其中i表示为对接舱的第i个可观测点,t表示其为第t时刻的坐标,W
t
(x,y,z)表示第t时刻的无人艇坐标,P
it
(x,y,z)表示t时刻对接舱的第i个可观测点与无人艇的坐标差值;
[0018]S22、将步骤S21所得的相对位置信息进行展平处理,赋值到神经网络的节点中,作为智能体神经网络输入层的输入;
[0019]S23、利用神经网络拟合优势函数以及最优状态价值函数,网络节点的输出可评价动作的好坏,根据动作的评价可选择当前状态下最优动作;
[0020]S24、使用优先经验回放机制,建立经验池,存入的信息为每一次通信所保存的四个时刻的环境状态、执行动作、环境奖励以及状态转移后的新的环境状态,训练神经网络时根据每条经验的重要性的不同,赋予不同采样概率,依照其概率分布随机抽取经验;
[0021]S3、建立强化学习控制器与仿真环境的分布式通信系统,将控制器置于服务器端,仿真环境置于服务端,具体包括以下子步骤:
[0022]S31、将强化学习控制器置于服务器端,服务器端共包含两条线程,主线程接收来自于仿真环境四个时刻的环境信息,完成神经网络的前向传播,计算最终智能体所需执行动作的编号,并将该条经验存入经验池;线程2负责从经验池取出数据,完成神经网络的前向传播与反向传播,实现智能体的异步训练;
[0023]S32、将仿真环境置于客户端,每四分之一个通信时间,采样一次环境状态信息,并将相关信息存入状态数组,通信时接收服务器端传来的动作指令,并将状态数组本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种考虑海浪干扰的无人艇回收分布式决策仿真系统,其特征在于,包括以下步骤:S1、在虚幻引擎中,搭建无人艇回收任务的仿真环境并完成对接舱体的3D建模,具体包括以下子步骤:S11、在仿真环境中,利用多个Gerstner波的叠加,实现复杂海况中的海浪环境的模拟;S12、将无人艇抽象为智能体,设计无人艇在离散动作空间下的运动控制器,动作空间中包含左转、右转、前进、后退、左前方向行进、右前方向行进、左后方向行进、右后方向行进以及无动作,共计九种可执行动作;S13、对与无人艇实现对接的舱体建模,对接舱上设置三个不共线的可观测点,作为环境中状态空间的一部分,无人艇可观测到对接舱体的实时相对位姿;S14、完成环境规则模块的搭建,包含智能体随机初始化生成位置、奖励机制设定、碰撞机制设定以及胜利和失败的判定条件设定;具体奖励函数设置,可由如下公式表示:式中:α,β,γ表示平衡距离变化与累计碰撞力对奖励影响的权重系数,

ε表示船体损毁惩罚系数,

μ表示出界惩罚系数,

η表示翻船惩罚系数,φ表示终局奖励系数,α,β,γ,ε,μ,η,φ均为可调超参数,是常数,d
t
表示本次通信过程无人艇与对接舱的多个可观测点最终的平均距离大小,d
t
‑1表示上一次通信过程无人艇与对接舱的多个可观测点最终的平均距离大小,d
max
表示无人艇与最终目标点限制的最大距离,距离超出d
max
代表无人艇超出地图边界,F
c
表示本轮任务中无人艇与对接舱产生过的累计碰撞力,累计碰撞力越大,产生的惩罚越大,F
max
表示累计碰撞力的上限,当F
c
大于F
max
,判定本轮为负,给予

ε的惩罚;当无人艇行驶开出地图边界,同样判负,给予

μ的惩罚;当无人艇因为海浪或者碰撞造成船体打翻,判负并给予

η的惩罚,如果最终任务胜利,给予φ的终局奖励;S2、基于DuelingNetwork算法,搭建智能体决策模块,针对本应用场景,优化神经网络结构,使决策模块具有短时记忆功能,可以让智能体在该模型下能更好的预测未来状态,具体包括以下子步骤:S21、分别记录过去四个时刻下对接舱与...

【专利技术属性】
技术研发人员:栾添添尹昭然佟海艳孙明晓尤波姚汉红付强甄立强
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1