当前位置: 首页 > 专利查询>集美大学专利>正文

一种数据融合深度强化学习的无人船避碰方法及系统技术方案

技术编号:38840952 阅读:10 留言:0更新日期:2023-09-17 09:54
本发明专利技术涉及一种数据融合深度强化学习的无人船避碰方法及系统。使用两种传感器确定障碍物精确位置,并分别使用两组数据分别作为两个深度学习网络的输入,最终输出期望位置,实现在复杂环境下多传感器优势互补,同时解决现有深度强化学习避碰算法的训练时间长,避碰稳定性不足的问题。定性不足的问题。定性不足的问题。

【技术实现步骤摘要】
一种数据融合深度强化学习的无人船避碰方法及系统


[0001]本专利技术涉及无人船技术以及避碰算法等领域,具体涉及一种数据融合深度强化学习的无人船避碰方法及系统。

技术介绍

[0002]现有的基于深度强化学习的船舶避碰研究中,通常使用单传感器获取的障碍物数据来训练智能体并做出决策。在实际复杂海况的场景中,单传感器广度、精度以及可靠性有限,无法实现稳定的船舶避障决策。另一方面,采用多传感器数据融合的方法可以克服上述局限性,但由于多源异构数据融合的复杂性,进一步限制了基于多传感器数据融合的无人船避碰方法研究。
[0003]传统避碰算法计算量大,应用过程需要多次重复搜索路径,主要用于离线全局路径规划或辅助决策,难以解决船舶行动实时决策问题。当前人工智能技术发展迅速,强化学习作为人工智能算法,具有自学习及在线学习的特点,能够在变化的环境中做出正确的决策,对实现智能船舶安全航行与避碰具有重大意义。深度强化学习是深度学习的感知、记忆和学习能力以及强化学习的决策能力的结合,该算法可用于训练智能体并赋予其自主避碰的能力,从而解决船舶智能避碰问题。对于深度强化学习中基于预测控制的深度强化学习(CADRL)的避障算法,首先其基于预测控制来线性预测障碍物的未来状态,这使得获取的系统状态并不准确。其次,其对动作空间里所有的动作采取的是逐个评估的方法,这意味着在决策时会加大响应延迟。最后,CADRL算法里涉及到的奖励回报仅仅线性叠加到动作值上,并没有真正参与到网络权值的更新,这不能称之为深度强化学习,因为其避障能力并不是学习出来的。对于深度Q网络(Deep Q

network,DQN)算法,共用一个网络参与动作值的估计与决策,产生的往往是有偏估计,易陷入局部最优,避障性能不佳且成功率较低。对于基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的深度强化学习避障算法,所采用的端到端训练方式极大地增加了无人船避碰训练以及找寻目标的时间。为解决上述问题,DuelingDouble Deep Q Network(D3QN)算法结合了Double DQN和DuelingDQN算法的思想,有效地提高了收敛速度和收敛稳定性,缩短了训练时间。
[0004]现有技术的缺点首先表现在基于深度强化学习的船舶避碰研究中,通常使用单传感器获取的数据来训练智能体并做出决策。基于视觉的环境感知可减少多个测量装置在检测过程中的干扰,并且能够准确识别出障碍物,但在光线不足或者强光等天气恶劣的环境下,识别物体精度有限。毫米波雷达不受光线的影响,但毫米波雷达信号不稳定,容易受雨水和水面浪花的影响,而且无法获取障碍物大小信息,并且现有的研究都只是将一个传感器获取的障碍物信息作为决策的输入数据,决策稳定性低。其次,深度强化学习算法需要处理动态环境下的决策问题。由于动态环境的复杂性和不确定性,使得训练算法模型时训练时间长且计算成本高。此外,由于现有的深度强化学习算法容易陷入局部最优解而导致收敛效果差,因此需要设计更有效的算法以提高其在实际场景中的性能。

技术实现思路

[0005]本专利技术的目的在于克服单传感器确识别目标精度不足以及现有深度强化学习算法训练时间长,避碰效果差的问题,提供一种数据融合深度强化学习的无人船避碰方法及系统,使用两种传感器确定障碍物精确位置,并分别使用两组数据分别作为两个深度学习网络的输入,最终输出期望位置,实现在复杂环境下多传感器优势互补,同时解决现有深度强化学习避碰算法的训练时间长,避碰稳定性不足的问题。
[0006]为实现上述目的,本专利技术的技术方案是:一种数据融合深度强化学习的无人船避碰方法,通过可见光摄像头和毫米波雷达获取当前状态信息,选用D3QN算法构建避碰智能体;所述D3QN算法基于深度强化学习中的深度Q网络算法,采用Dueling结构对网络进行修改;基于D3QN算法计算得到无人船的期望位置,转化成推进器的角度和转速,通过TCP/IP协议将数据发送到无人船主控,由主控通过控制器控制无人船到达指定的期望位置,实现无人船智能避碰航行。
[0007]在本专利技术一实施例中,该方法具体实现步骤如下:
[0008]步骤1、获取当前状态信息并发送给主控;
[0009]步骤2、判断当前状态是否需要避障,若需要进行避障,执行步骤3,若否,执行步骤5;
[0010]步骤3、通过训练好的智能体计算出无人船的期望位置,并将期望位置转化为推进器的角度与转速发送到主控;
[0011]步骤4、主控将推进器的角度与转速数据发送给主控;
[0012]步骤5、主控通过控制器控制无人船到达指定的期望位置;
[0013]步骤6、判断无人船是否到达终点,若已到达终点,则结束,若否,则返回步骤1。
[0014]在本专利技术一实施例中,步骤1中,通过可见光摄像头获取实时图像数据,毫米波雷达获取周边环境数据,包括帧编号、每帧可靠性和实际目标数,并将实时图像数据、周边环境数据组成的当前状态信息通过通讯设备发送给主控。
[0015]在本专利技术一实施例中,步骤2中,根据步骤1获取的当前状态信息,计算出障碍物的位姿,判断是否需要实施避障。
[0016]在本专利技术一实施例中,步骤3具体实现如下:
[0017]步骤3.1、构建深度强化学习中智能体做出决策的神经网络结构,包括LSTM神经网络和CNN神经网络,并将这两个网络通过Dueling结构进行结合,实现数据融合,得到期望位置(X,Y);
[0018]步骤3.2、对深度强化学习中的奖励函数r基于COLREGs的奖励函数设计,奖励函数r分为四部分,
[0019]r=r1+r2+r3+r4[0020]式中:r1为避碰奖励,当无人船与障碍物之间的DCPA小于安全距离时,会得到负的奖励;r2用来实现没有碰撞危险时朝着目标点航行以及避碰之后恢复航向;r3用于实现COLREGs中规定让路船应向右转向避让的要求;r4起到平滑航行的作用,当航向与前一时刻不同,会获得负的奖励;具体表示如下:
[0021]r1=ω1*sign(DCPA

D
s
)
[0022]r2=ω2*sign(β
rel

β
r

el
)
[0023]r3=ω3*(α

α

)
[0024]r4=ω4*|α

α

|
[0025]式中:DCPA为无人船与障碍物之间的最近碰撞距离;D
s
为安全会遇距离;β
rel
和β
r

el
分别为上一时刻和当前时刻航行路径相对于无人船艏向的偏向角;α和α

分别为上一时刻和当前时刻无人船的艏向;ω1、ω2、ω3、ω4分别为不同子奖励函数的权重,其中根据子奖励的重要程度,规定ω1>ω2>ω3>ω4;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据融合深度强化学习的无人船避碰方法,其特征在于,通过可见光摄像头和毫米波雷达获取当前状态信息,选用D3QN算法构建避碰智能体;所述D3QN算法基于深度强化学习中的深度Q网络算法,采用Dueling结构对网络进行修改;基于D3QN算法计算得到无人船的期望位置,转化成推进器的角度和转速,通过TCP/IP协议将数据发送到无人船主控,由主控通过控制器控制无人船到达指定的期望位置,实现无人船智能避碰航行。2.根据权利要求1所述的一种数据融合深度强化学习的无人船避碰方法,其特征在于,该方法具体实现步骤如下:步骤1、获取当前状态信息并发送给主控;步骤2、判断当前状态是否需要避障,若需要进行避障,执行步骤3,若否,执行步骤5;步骤3、通过训练好的智能体计算出无人船的期望位置,并将期望位置转化为推进器的角度与转速发送到主控;步骤4、主控将推进器的角度与转速数据发送给主控;步骤5、主控通过控制器控制无人船到达指定的期望位置;步骤6、判断无人船是否到达终点,若已到达终点,则结束,若否,则返回步骤1。3.根据权利要求2所述的一种数据融合深度强化学习的无人船避碰方法,其特征在于,步骤1中,通过可见光摄像头获取实时图像数据,毫米波雷达获取周边环境数据,包括帧编号、每帧可靠性和实际目标数,并将实时图像数据、周边环境数据组成的当前状态信息通过通讯设备发送给主控。4.根据权利要求2所述的一种数据融合深度强化学习的无人船避碰方法,其特征在于,步骤2中,根据步骤1获取的当前状态信息,计算出障碍物的位姿,判断是否需要实施避障。5.根据权利要求2所述的一种数据融合深度强化学习的无人船避碰方法,其特征在于,步骤3具体实现如下:步骤3.1、构建深度强化学习中智能体做出决策的神经网络结构,包括LSTM神经网络和CNN神经网络,并将这两个网络通过Dueling结构进行结合,实现数据融合,得到期望位置(X,Y);步骤3.2、对深度强化学习中的奖励函数r基于COLREGs的奖励函数设计,奖励函数r分为四部分,r=r1+r2+r3+r4式中:r1为避碰奖励,当无人船与障碍物之间的DCPA小于安全距离时,会得到负的奖励;r2用来实现没有碰撞危险时朝着目标点航行以及避碰之后恢复航向;r3用于实现COLREGs中规定让路船应向右转向避让的要求;r4起到平滑航行的作用,当航向与前一时刻不同,会获得负的奖励;具体表示如下:r1=ω1*sign(DCPA

D
s
)r2=ω2*sign(β
rel

β

rel
)r3=ω3*(α

α

)r4=ω4*|α

α

|式中:DCPA为无人船与障碍物之间的最近碰撞距离;D
s
为安全会遇距离;β
rel
和β

rel
分别为上一时刻和当前时刻航行路径相对于无人船艏向的偏向角;α和α

分别为上一时刻和当前时刻无人船的艏向;ω1、ω2、ω3、ω4分别为不同子奖励函数的权重,其中根据子奖励的
重要程度,规定ω1>ω2>ω3>ω4;步骤3.3、对智能体进行深度强化学习训练,最终得到训练好的智能体;步骤3.4、将训练好的智能体部署在无人船的装载计算机中;步骤3.5、训练好的智能体输出期望位置,将位置关系转化为推进器的角度与转速,并将数据打包通过TCP/IP协议发送给主控。6.根据权利要求5所述的一种数据融合深度强化学习的无人船避碰方法,其特征在于,步骤3.1中,将可见光摄像头和毫米波雷达两个传感器获取的数据分别输入LSTM神经网络和CNN神经网络,使用CNN神经网络对可见光摄像头获取的图像数据进行特征提取,使用LSTM神经网络对毫米波雷达获取的数据进行特征提取,然后将两个...

【专利技术属性】
技术研发人员:吴德烽范镇鸿钟尚坤刘启俊
申请(专利权)人:集美大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1