【技术实现步骤摘要】
一种数据融合深度强化学习的无人船避碰方法及系统
[0001]本专利技术涉及无人船技术以及避碰算法等领域,具体涉及一种数据融合深度强化学习的无人船避碰方法及系统。
技术介绍
[0002]现有的基于深度强化学习的船舶避碰研究中,通常使用单传感器获取的障碍物数据来训练智能体并做出决策。在实际复杂海况的场景中,单传感器广度、精度以及可靠性有限,无法实现稳定的船舶避障决策。另一方面,采用多传感器数据融合的方法可以克服上述局限性,但由于多源异构数据融合的复杂性,进一步限制了基于多传感器数据融合的无人船避碰方法研究。
[0003]传统避碰算法计算量大,应用过程需要多次重复搜索路径,主要用于离线全局路径规划或辅助决策,难以解决船舶行动实时决策问题。当前人工智能技术发展迅速,强化学习作为人工智能算法,具有自学习及在线学习的特点,能够在变化的环境中做出正确的决策,对实现智能船舶安全航行与避碰具有重大意义。深度强化学习是深度学习的感知、记忆和学习能力以及强化学习的决策能力的结合,该算法可用于训练智能体并赋予其自主避碰的能力,从而解决船舶智能避碰问题。对于深度强化学习中基于预测控制的深度强化学习(CADRL)的避障算法,首先其基于预测控制来线性预测障碍物的未来状态,这使得获取的系统状态并不准确。其次,其对动作空间里所有的动作采取的是逐个评估的方法,这意味着在决策时会加大响应延迟。最后,CADRL算法里涉及到的奖励回报仅仅线性叠加到动作值上,并没有真正参与到网络权值的更新,这不能称之为深度强化学习,因为其避障能力并不是学习出来的。对于 ...
【技术保护点】
【技术特征摘要】
1.一种数据融合深度强化学习的无人船避碰方法,其特征在于,通过可见光摄像头和毫米波雷达获取当前状态信息,选用D3QN算法构建避碰智能体;所述D3QN算法基于深度强化学习中的深度Q网络算法,采用Dueling结构对网络进行修改;基于D3QN算法计算得到无人船的期望位置,转化成推进器的角度和转速,通过TCP/IP协议将数据发送到无人船主控,由主控通过控制器控制无人船到达指定的期望位置,实现无人船智能避碰航行。2.根据权利要求1所述的一种数据融合深度强化学习的无人船避碰方法,其特征在于,该方法具体实现步骤如下:步骤1、获取当前状态信息并发送给主控;步骤2、判断当前状态是否需要避障,若需要进行避障,执行步骤3,若否,执行步骤5;步骤3、通过训练好的智能体计算出无人船的期望位置,并将期望位置转化为推进器的角度与转速发送到主控;步骤4、主控将推进器的角度与转速数据发送给主控;步骤5、主控通过控制器控制无人船到达指定的期望位置;步骤6、判断无人船是否到达终点,若已到达终点,则结束,若否,则返回步骤1。3.根据权利要求2所述的一种数据融合深度强化学习的无人船避碰方法,其特征在于,步骤1中,通过可见光摄像头获取实时图像数据,毫米波雷达获取周边环境数据,包括帧编号、每帧可靠性和实际目标数,并将实时图像数据、周边环境数据组成的当前状态信息通过通讯设备发送给主控。4.根据权利要求2所述的一种数据融合深度强化学习的无人船避碰方法,其特征在于,步骤2中,根据步骤1获取的当前状态信息,计算出障碍物的位姿,判断是否需要实施避障。5.根据权利要求2所述的一种数据融合深度强化学习的无人船避碰方法,其特征在于,步骤3具体实现如下:步骤3.1、构建深度强化学习中智能体做出决策的神经网络结构,包括LSTM神经网络和CNN神经网络,并将这两个网络通过Dueling结构进行结合,实现数据融合,得到期望位置(X,Y);步骤3.2、对深度强化学习中的奖励函数r基于COLREGs的奖励函数设计,奖励函数r分为四部分,r=r1+r2+r3+r4式中:r1为避碰奖励,当无人船与障碍物之间的DCPA小于安全距离时,会得到负的奖励;r2用来实现没有碰撞危险时朝着目标点航行以及避碰之后恢复航向;r3用于实现COLREGs中规定让路船应向右转向避让的要求;r4起到平滑航行的作用,当航向与前一时刻不同,会获得负的奖励;具体表示如下:r1=ω1*sign(DCPA
‑
D
s
)r2=ω2*sign(β
rel
‑
β
′
rel
)r3=ω3*(α
‑
α
′
)r4=ω4*|α
‑
α
′
|式中:DCPA为无人船与障碍物之间的最近碰撞距离;D
s
为安全会遇距离;β
rel
和β
′
rel
分别为上一时刻和当前时刻航行路径相对于无人船艏向的偏向角;α和α
′
分别为上一时刻和当前时刻无人船的艏向;ω1、ω2、ω3、ω4分别为不同子奖励函数的权重,其中根据子奖励的
重要程度,规定ω1>ω2>ω3>ω4;步骤3.3、对智能体进行深度强化学习训练,最终得到训练好的智能体;步骤3.4、将训练好的智能体部署在无人船的装载计算机中;步骤3.5、训练好的智能体输出期望位置,将位置关系转化为推进器的角度与转速,并将数据打包通过TCP/IP协议发送给主控。6.根据权利要求5所述的一种数据融合深度强化学习的无人船避碰方法,其特征在于,步骤3.1中,将可见光摄像头和毫米波雷达两个传感器获取的数据分别输入LSTM神经网络和CNN神经网络,使用CNN神经网络对可见光摄像头获取的图像数据进行特征提取,使用LSTM神经网络对毫米波雷达获取的数据进行特征提取,然后将两个...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。