当前位置: 首页 > 专利查询>集美大学专利>正文

一种全电无人拖轮智能协同辅助大型货轮自动靠泊的方法技术

技术编号:35930623 阅读:12 留言:0更新日期:2022-12-14 10:16
本发明专利技术提出一种全电无人拖轮智能协同辅助大型货轮自动靠泊的方法,用于多艘全电无人拖轮协同进行水面工作的路径跟踪与动力分配,所述方法以深度确定性策略梯度算法DDPG为基础,辅以人工设定势场函数拓展和目标引力函数扩展相结合的扩展策略,并采用节点拓展概率准则及多步贪婪准则,自动求解出全电无人拖轮的航行路径;本发明专利技术能大大改善传统方法的随机性太高、求解不稳定、容易陷入局部最优解的缺点。容易陷入局部最优解的缺点。容易陷入局部最优解的缺点。

【技术实现步骤摘要】
一种全电无人拖轮智能协同辅助大型货轮自动靠泊的方法


[0001]本专利技术涉及无人船
,尤其是一种全电无人拖轮智能协同辅助大型货轮自动靠泊的方法。

技术介绍

[0002][0003]自主靠泊主要分为两种形式:
[0004]1)全驱动货轮依靠自身的推力实现自主靠泊,但这种方式需要将现有的欠驱动大型货轮全部升级改造为全驱动货轮,货轮改造成本高,难度大。
[0005]2)多拖轮协同辅助货轮自主靠泊,这就亟需对多拖轮辅助自主靠泊系统路径规划与控制技术进行研究。各大科研院所、高校和企业在船舶协同路径规划、协同控制和协同拖拽方面进行了大量的研究,取得了一系列的研究成果。但是在多无人拖轮协同辅助货轮自主靠泊方面研究较少。
[0006]现有技术在进行无人拖轮路径规划领域基本都是针对单无人拖轮,多无人拖轮协同控制技术上还有很大提升,对于多无人拖轮控制,现有技术有采用目标分配方法将目标点分配给多无人拖轮,生成单个无人拖轮的初级航行路线,依据运动限制范围在可航行区域规划单无人拖轮沿初级航行路线驶向下一个目标点的实际路径。这种方式避免了无人拖轮之间发生碰撞,但是在运动限制范围内遇到其他船只或者海上浮漂可能造成无法行进或者发生碰撞,因此只适用于无其他船只,海上浮漂等障碍物的已知海洋环境。另外,现有无人拖轮大多采用燃油提供动力,对能源消耗和环境造成一定的影响。并且燃油无人拖轮实现自动加油非常困难,岸基现阶段无法提供燃油自动补给站,需要工人实现燃油补充。
[0007]为此需要研究一种协同辅助自主靠泊路径规划与控制方法,实现欠驱动货轮的全自主靠泊。所以本专利技术提出一种以基于深度强化学习协同路径规划和动力分配算法为基础,实现对多拖轮辅助靠泊系统高精度的协同路径规划与控制的方法。

技术实现思路

[0008]本专利技术提出一种全电无人拖轮智能协同辅助大型货轮自动靠泊的方法,能大大改善传统方法的随机性太高、求解不稳定、容易陷入局部最优解的缺点。
[0009]本专利技术采用以下技术方案。
[0010]一种全电无人拖轮智能协同辅助大型货轮自动靠泊的方法,用于多艘全电无人拖轮协同进行水面工作的路径跟踪与动力分配,所述方法以深度确定性策略梯度算法DDPG为基础,辅以人工设定势场函数拓展和目标引力函数扩展相结合的扩展策略,并采用节点拓展概率准则及多步贪婪准则,自动求解出全电无人拖轮的航行路径,包括以下步骤;
[0011]步骤S1,构建决策神经网络模型;
[0012]步骤S2,以多艘无人拖轮同时探索提取航行水域环境信息,把提取的信息储存为经验数据;
[0013]步骤S3,从储存的经验数据中选取训练数据,训练第一决策神经网络模型、第二决策神经网络模型;
[0014]步骤S4,对于已知的地图环境,将环境地图进行锐化处理后输入无人拖轮核心处理器;
[0015]步骤S5,核心处理器接收图像信息,并对其进行再次处理,转化为能够识别的电子数据信息;
[0016]步骤S6,无人拖轮利用第一决策神经网络模型和电子地图数据,以所需辅助的大型货轮为终点进行路径规划;
[0017]步骤S7,无人拖轮按步骤S6的路径规则航行到目标终点后,与大型货轮通过绳索或者船体拼接装置连接;
[0018]步骤S8,无人拖轮与大型货轮连接组合后,作为拖曳船组,针对地图电子数据信息,综合考虑多船整体起点,终点泊位;
[0019]步骤S9,无人拖轮利用第二决策神经网络模型和电子地图数据再次进行路径规划,再由无人拖轮的船体控制系统进行控制以实现各艘无人拖轮之间的动力分配,使组合后的拖曳船组航行移动至泊位。
[0020]步骤S1中,以强化学习RL结合神经网络形成深度强化学习DRL,采用以下方法;
[0021]A、用经验重放和目标网络,采用深度神经网络CNN使行动价值的函数逼近训练稳定;
[0022]B、设计仅以像素和游戏分数作为输入的端到端RL方法;
[0023]C、使用相同的算法、网络架构和超参数来训练更为灵活的网络,要求标准是能在不同的任务上表现良好且优于先前的算法,最终达到能与人类专业测试者相当的水平。
[0024]步骤S2中,通过所述决策神经网络模型输出动作,并将相关状态、动作、奖励保存经验池中,然后从所述经验池中选择经验数据形成训练数据集,在采用所述训练数据集训练所述决策神经网络模型时,每个无人拖轮从不同的初始状态开始探测,并将探测的运动状态存入所述经验池中。
[0025]步骤S3中,基于DDPG算法对所述决策神经网络模型进行训练,在训练过程中将OU过程和人工设定势场函数拓展和目标引力函数扩展相结合的扩展策略引入到DDPG算法中来探索环境,当所述决策神经网络模型做出决策和输出动作a
t
=u(s
t
)时,由随机过程产生的动作噪声的平均值为0,a
t
表示神经网络输出的动作,u(s
t
)表示神经网络决策策略,s
t
表示t时刻输入神经网络的状态输入,a
o
表示神经网络输出的动作加入随机噪声后生成的动作。DDPG算法的critic 当前网络负责对当前状态S使用actor当前网络进行策略网络参数θ的迭代更新,根据当前状态S选择当前动作A,用于和环境交互生成S

,R,存放到经验池中;对经验回放池中采样的下一状态S

选择动作A

,在actor目标网络中进行,actor 目标网络负责根据经验回放池中采样的下一状态S

选择最优下一动作A

。网络参数θ

定期从θ复制。基于经验回放池和目标actor网络提供的S

,A

计算目标Q值部分,放到critic目标网络完成。而critic目标网络计算出目标Q值后,critic当前网络会计算目标Q值,并进行网络参数更新,并定期将网络参数复制到critic 目标网络;此外,actor当前网络也会基于critic当前网络计算出目标Q值,进行网络参数更新,并定期将网络参数复制到actor目标网络;
[0026]上述网络参数更新方式采用软更新,即每次仅少量更新,公式表述为:
[0027]ω
′←
τω+(1

τ)ω
′ꢀꢀꢀꢀ
公式一;
[0028]θ
′←
τθ+(1

τ)θ

[0029]公式二;
[0030]其中τ是更新系数,采用小数值;
[0031]对于损失函数,使用均方误差损失函数
[0032][0033]通过神经网络的梯度反向传播来更新critic当前网络的所有参数ω;公式为
[0034][0035]通过神经网络的梯度反向传播来更新actor当前网络的所有参数θ;其中y
j
表示目标Q值,表示j时刻状态的特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种全电无人拖轮智能协同辅助大型货轮自动靠泊的方法,用于多艘全电无人拖轮协同进行水面工作的路径跟踪与动力分配,其特征在于:所述方法以深度确定性策略梯度算法DDPG为基础,辅以人工设定势场函数拓展和目标引力函数扩展相结合的扩展策略,并采用节点拓展概率准则及多步贪婪准则,自动求解出全电无人拖轮的航行路径,包括以下步骤;步骤S1,构建决策神经网络模型;步骤S2,以多艘无人拖轮同时探索提取航行水域环境信息,把提取的信息储存为经验数据;步骤S3,从储存的经验数据中选取训练数据,训练第一决策神经网络模型、第二决策神经网络模型;步骤S4,对于已知的地图环境,将环境地图进行锐化处理后输入无人拖轮核心处理器;步骤S5,核心处理器接收图像信息,并对其进行再次处理,转化为能够识别的电子数据信息;步骤S6,无人拖轮利用第一决策神经网络模型和电子地图数据,以所需辅助的大型货轮为终点进行路径规划;步骤S7,无人拖轮按步骤S6的路径规则航行到目标终点后,与大型货轮通过绳索或者船体拼接装置连接;步骤S8,无人拖轮与大型货轮连接组合后,作为拖曳船组,针对地图电子数据信息,综合考虑多船整体起点,终点泊位;步骤S9,无人拖轮利用第二决策神经网络模型和电子地图数据再次进行路径规划,再由无人拖轮的船体控制系统进行控制以实现各艘无人拖轮之间的动力分配,使组合后的拖曳船组航行移动至泊位。2.根据权利要求1所述的一种全电无人拖轮智能协同辅助大型货轮自动靠泊的方法,其特征在于:步骤S1中,以强化学习RL结合神经网络形成深度强化学习DRL,采用以下方法;A、用经验重放和目标网络,采用深度神经网络CNN使行动价值的函数逼近训练稳定;B、设计仅以像素和游戏分数作为输入的端到端RL方法;C、使用相同的算法、网络架构和超参数来训练更为灵活的网络,要求标准是能在不同的任务上表现良好且优于先前的算法,最终达到能与人类专业测试者相当的水平。3.根据权利要求1所述的一种全电无人拖轮智能协同辅助大型货轮自动靠泊的方法,其特征在于:步骤S2中,通过所述决策神经网络模型输出动作,并将相关状态、动作、奖励保存经验池中,然后从所述经验池中选择经验数据形成训练数据集,在采用所述训练数据集训练所述决策神经网络模型时,每个无人拖轮从不同的初始状态开始探测,并将探测的运动状态存入所述经验池中。4.根据权利要求1所述的一种全电无人拖轮智能协同辅助大型货轮自动靠泊的方法,其特征在于:步骤S3中,基于DDPG算法对所述决策神经网络模型进行训练,在训练过程中将OU过程和人工设定势场函数拓展和目标引力函数扩展相结合的扩展策略引入到DDPG算法中来探索环境,当所述决策神经网络模型做出决策和输出动作a
t
=u(s
t
)时,由随机过程产生的动作噪声的平均值为0,a
t
表示神经网络输出的动作,u(s
t
)表示神经网络决策策略,s
t
表示t时刻输入神经网络的状态输入,a
o
表示神经网络输出的动作加入随机噪声后生成的
动作。DDPG算法的critic当前网络负责对当前状态S使用actor当前网络进行策略网络参数θ的迭代更新,根据当前状态S选择当前动作A,用于和环境交互生成S

,R,存放到经验池中;对经验回放池中采样的下一状态S

选择动作A

,在actor目标网络中进行,actor目标网络负责根据经验回放池中采样的下一状态S

选择最优下一动作A

。网络参数θ

定期从θ复制。基于经验回放池和目标actor网络提供的S

,A

计算目标Q值部分,放到critic目标网络完成。而critic目标网络计算出目标Q值后,critic当前网络会计算目标Q值,并进行网络参数更新,并定期将网络参数复制到critic目标网络;此外,actor当前网络也会基于critic当前网络计算出目标Q值,进行网络参数更新,并定期将网络参数复制到actor目标网络;上述网络参数更新方式采用软更新,即每次仅少量更新,公式表述为:ω
′←
τω+(1

τ)ω
′ꢀꢀꢀꢀ
公式一;θ
′←
τθ+(1

τ)θ
′ꢀꢀꢀꢀ
公式二;其中τ是更新系数,采用小数值;对于损失函数,使用均方误差损失函数通过神经网络的梯度反向传播来更新critic当前网络的所有参数ω;公式为通过神经网络的梯度反向传播来更新actor当前网络的所有参数θ;其中y
j
表示目标Q值,表示j时刻状态的特征向量。5.根据权利要求4所述的一种全电无人拖轮智能协同辅助大型货轮自动靠泊的方法,其特征在于:所述全电无人拖轮在执行DDPG算法时,引进目标引力函数对其进行大方向上的引导,使搜索朝着目标的位置方向生长,以提高工作效率,同时加入设定人工势场和与目标引力函数扩展相结合的扩展策略,加入势场的过程如下:引力势场的形式以公式表述为式中,X是全电无人拖轮当前所在位置,X
g
是目标点所在位置,k是引力势场的增益系数;设全电无人拖轮在该点受到来自目标点的引力为F1,即其所受引力势场的梯度,方向由其当前位置指向目标点,公式如下所示模型中,全电无人拖轮所受引力随其距目标点距离的增加而减小,反之则增加,当全电无人拖轮到达或无限接近目标点时,其所受引力为0;假设全电无人拖轮在此点受到斥力势场为U2,来自于障碍物,其公式如下
其中,X
b
是障碍物的位置坐标,m是斥力势场的增益系数,ρ为障碍物的影响半径,由上可得全电无人拖轮受到的斥力F2(X)为其所受斥力势场的负梯度,公式如下:公式八;模型中,全电无人拖轮所受斥力随其距障碍物距离的减小而增大,反之则减小;全电无人拖轮受到的合力作用为F,公式如下F=F1+F2ꢀꢀꢀꢀ
公式九;全电无人拖轮在合力F的作用下,躲避障碍,朝着目标点移动;当全电无人拖轮、目标点和障碍物三者处于同一条直线上,且障碍物位于全电无人拖轮与目标点之间时,目标点对全电无人拖轮的引力和障碍物对全电无人拖轮的斥力的合力为零,全电无人拖轮则陷入局部最小值,在该局部小范围内反复移动向无法到达目的点,如果遇到这种情形,系统将自动提高算法权重,跳出此局部最优。6.根据权利要求5所述的一种全电无人拖轮智能协同辅助大型货轮自动靠泊的方法,其特征在于:所述全电无人拖轮在执行DDPG算法时,其运算包括以下步骤;步骤A1、全电无人拖轮船载处理器接收地图信息,确定起始点状态和目标点状态;通过本发明所介绍的方法建立环境坐标系,并将船体位置状态参数化,由船载传感器自动感知,并将船体状态输入船载核心处理器;步骤A2,通过载入的第一决策神经网络模型进行路线拓展与规划,具体为:令A

为全电无人拖轮的连续动作维度,可做任意方向的动作;A

∈X
free

【专利技术属性】
技术研发人员:薛德来吴德烽
申请(专利权)人:集美大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1