System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于分布式软动作和评论家算法的船舶自主避碰方法技术_技高网

一种基于分布式软动作和评论家算法的船舶自主避碰方法技术

技术编号:41381748 阅读:6 留言:0更新日期:2024-05-20 10:23
本发明专利技术提出基于分布式软动作‑评论家算法的船舶自主避碰方法,生成以本船为中心的北‑东‑下(NED)惯性坐标系,获取本船和他船的运动信息;计算每艘危险船与本船之间的接近程度映射p(d);确保自主船的新航向落在安全的速度区间内。本发明专利技术能够在确定危险船后对船舶自身操纵性、运动学和国际海上避碰规则进行三方面的多线程交叉验证,给出最优安全矢量;并能够在碰撞无法避免时,及时调整船舶自身位姿,将碰撞损失降到最小;针对任务随机性和系统噪声产生的预测高估问题,使用新的分布式网络训练系统模型,并在训练达到指标后可被搭载在自主船上实现近海或渔区的自主航行。

【技术实现步骤摘要】

本专利技术涉及自主避碰,特别涉及一种基于分布式软动作和评论家算法的船舶自主避碰方法


技术介绍

1、随着自主系统的不断发展,自主船在军事探测和民用运输方面的表现大放异彩,而在海上航行的过程中,自主船无可避免的会遭遇其他船,其中的风险检测和动态避碰问题对自主船来说仍存在较大局限。相较于单一船舶之间的避碰,在多船环境中首先需要判定当前环境的重点避碰船,其次对重点船采取符合海事要求准测的避碰操作,最后在采取避碰操作后预测与其他船之间的碰撞风险。在自主船避碰的过程中,采取的操作如果不符合相关规定,会导致严重的海上交通事故,因此,将海事规则转化为机器可读的约束是十分必要的。

2、当前的风险检测系统大都是通过雷达或者电子海图,计算出其他每艘船舶相对于本船的预计碰撞位置和时间。但在多船的环境中,利用传统速度障碍法进行风险检测无法适应船舶的操纵性与运动学,另外,在船舶到达最大可转向角度和舵力的期间,控制系统的协调性也很难保障。

3、随着船舶感知设备和自动舵机的不断完善,对附近周围船舶位姿和航迹的精准预测为自主避碰创造了条件,并且,通过计算机对自动舵输出决策信号已经能够成功转化为桨舵系统的控制信号。但目前的避碰算法大都未考虑在无法避免碰撞时,船舶如何调整自身位姿并将碰撞危害降至最小。因此如何设计出稳妥有效的避碰决策来控制船舶避开危险船并最终回到计划航线,成为当前船舶自主避碰决策系统的重要基础。


技术实现思路

1、本专利技术要解决的技术问题是克服现有技术的缺陷,对船舶自身的操纵性、运动学和避碰规则三方面进行多线程交叉验证;并且提出了当碰撞无法被避免时,将碰撞损失最小化的船舶本身自身位姿修正;另外在提升算法的改进方面,将传统的双q学习替换为回报分部学习,提升了自主系统的训练效率和稳定性,保障了自主船舶的航行安全。

2、为了解决上述技术问题,本专利技术提供了如下的技术方案:

3、在本专利技术的第一方面,提供一种基于分布式软动作和评论家算法的船舶自主避碰方法,具体包括以下步骤:

4、步骤1、获取基本环境信息;

5、生成以本船为中心的北-东-下ned惯性坐标系,获取船舶起始坐标po、速度vo和航向信息ψ,确定与目标点方位坐标之间的距离差和角度差;获取其他每艘船的坐标pt、速度vt以及与本船的相对运动矢量,并将其他所有船与本船之间的欧拉距离做映射处理;

6、根据动态航行船舶的航行信息,进一步利用相对运动矢量线法判断与本船存在危险的目标船,并计算每艘危险船与本船之间的接近程度映射p(d);

7、根据国际海上避碰规则以及船舶的运动学和操纵性,对危险船的可航速度矢量进行进一步分类,确保自主船的新航向落在安全的速度区间内;

8、步骤2、设置算法训练的前馈网络参数;

9、初始化策略网络即动作参数θ,分布式价值网络即评价参数φ,清空数据回放中心b,通过平滑变量ζ来设置目标网络参数θ′和φ′的迭代方式,初始化奖励函数中的学习率以及平滑变量,初始化迭代参数;

10、步骤3、使用分布式软动作-评论家算法进行模型观测并存储历史经验;

11、在模拟环境中,系统通过观察环境信息st对下一步动作at进行随机预测,在环境中实施转向和变速动作并观测本船的新速度矢量变化,或在两项中选择一项;预测采取措施后是否与其他船形成新的碰撞局面,进一步确认是否会由于操纵性影响无法在预定位置完成转向操作,且确认速度矢量落在避碰规则约束区间内;

12、当多船形成的环境导致碰撞无法避免时,判断碰撞态势并进一步根据额外奖励调整船舶位姿,保证碰撞损害最小;

13、观测环境转移至下一状态st+1后产生的反馈奖励rt,并根据碰撞奖励判断该状态是否是本回合的终止状态,最后将轨迹(st,at,st+1,rt)存储到数据回放中心b中;

14、步骤4、使用分布式软动作-评论家算法进行模型训练;

15、在训练阶段,评价网络在观察环境信息st后,从回放中心b中对经验轨迹(st,at,st+1,rt)进行随机抽样,并给出对当前环境信息下的动作分布fφ(πa;s),其中πa包含本船所需的新矢量的矩阵信息,动作网络选中动作分布中概率最大的矢量线并对自动控制舵组系统发送信号,并在给出决策后对动作参数θ和评价参数φ分别作梯度下降和梯度上升;

16、重复以上操作,直到累计奖励值达到最大,并输出最终的系统外置模型;

17、步骤5、将训练模型作为系统的内置大脑进行算法测试;

18、调整算法的优化器和训练参数,重置船舶起点和目标点信息,设置航路点,直到在距离目标点附近0.1海里时被视为完成航行任务,随着自主船在航行过程中进入多船区域,记录转向操作节点与危险解除节点,记录航行任务单次成功率,当测试集中避碰成功率达到100%,航迹偏离率低于20%被判定为完成训练。

19、作为本专利技术的一种优选技术方案,在步骤1中,与单艘船舶之间判断危险的相对运动矢量线法为:

20、首先根据最短距离和时间公式判断危险船:

21、

22、|po-pt+tc(vo-vt)|≤2      (2)

23、再将本船船长lo与其他船长lt总和的一半作为半径,以危险船为圆心建立相对运动圆,本船位置与该圆的两条切线形成碰撞锥cc,沿着危险船船的运动矢量方向移动cc,从而得到速度禁区vo,当本船的速度矢量落在vo当中,则本船需要采取避碰决策。

24、作为本专利技术的一种优选技术方案,在步骤1中,与多艘危险船相遇时额外根据接近程度映射p(d)确定重点避碰船,p(d)越小说明该船的威胁最大,在采取操作的过程中,回旋半径的存在导致无法在预测位置转到安全矢量的航向,通过欧拉法对操纵性方程离散化并进行二次预测;

25、操纵性方程计算公式为:

26、

27、离散化操纵性方程计算公式为:

28、

29、基于离散方程得到新矢量线的计算公式为:

30、

31、p表示在ned坐标系中相对于地球的固定位置和航向角度向量矩阵,v表示自主船的横荡、纵荡和艏摇的速度向量矩阵,τ表示自主船的螺旋桨推力和转向舵力矩阵,m、c和d分别为自主船的质量矩阵、惯性矩阵和非线性阻尼矩阵;px和py分别为新矢量线的x和y轴坐标,x(t′)和y(t′)分别为原始预测矢量线坐标。

32、作为本专利技术的一种优选技术方案,在步骤1中,国际海上避碰规则和船舶运动学的约束为:

33、本船的速度矢量落在他船的vo中时,触发避碰条件,他船相对于本船除左正横交叉相遇外,本船需要给他船让路,根据国际海上避碰规则,让路时应该从他船的右侧或后方驶过,将vo的中垂线作为基准,以锥尖生成该线的垂线为界限,vo外部的左侧空间被定义为vsl,右侧为vsr,底部为vsb;

34、根据船舶运动学,舵机系统不能无限制的转向和变速,因此自主船的速度矢量区间本文档来自技高网...

【技术保护点】

1.一种基于分布式软动作和评论家算法的船舶自主避碰方法,包括,其特征在于,具体包括以下步骤:

2.根据权利要求1所述方法,其特征在于:在步骤1中,与单艘船舶之间判断危险的相对运动矢量线法为:

3.根据权利要求1所述方法,其特征在于:在步骤1中,与多艘危险船相遇时额外根据接近程度映射p(d)确定重点避碰船,p(d)越小说明该船的威胁最大,在采取操作的过程中,回旋半径的存在导致无法在预测位置转到安全矢量的航向,通过欧拉法对操纵性方程离散化并进行二次预测;

4.根据权利要求1所述方法,其特征在于:在步骤1中,国际海上避碰规则和船舶运动学的约束为:

5.根据权利要求1所述方法,其特征在于:

6.根据权利要求1所述方法,其特征在于:在步骤3中,网络观测模型中奖励反馈的设计具体为:

7.根据权利要求1所述方法,其特征在于:在步骤3中,减小碰撞损害的额外奖励具体设计为:

8.根据权利要求1所述方法,其特征在于:在步骤3中,分布式网络的设计具体为:

9.一种基于分布式软动作-评论家的多船自主避碰系统,所述系统包括动作网络模块、评价网络模块和数据回放中心模块,在模型训练过程中,当前传感器信息作为输入,动作网络模块从数据回放中心模块中随机抽样经验并根据评价网络模块给出的估计进行更新,直到训练模型满足迭代终止指标,训练好的模型就可被作为内置大脑系统指导自主船在多船场景中进行自主避碰与决策验证。

10.一种可读存储介质,其特征在于:所述可读介质上存储有计算机程序,所述计算机程序执行时,实现权利要求1-8中任意一项所述的基于分布式软动作-评论家的多船自主避碰算法。

...

【技术特征摘要】

1.一种基于分布式软动作和评论家算法的船舶自主避碰方法,包括,其特征在于,具体包括以下步骤:

2.根据权利要求1所述方法,其特征在于:在步骤1中,与单艘船舶之间判断危险的相对运动矢量线法为:

3.根据权利要求1所述方法,其特征在于:在步骤1中,与多艘危险船相遇时额外根据接近程度映射p(d)确定重点避碰船,p(d)越小说明该船的威胁最大,在采取操作的过程中,回旋半径的存在导致无法在预测位置转到安全矢量的航向,通过欧拉法对操纵性方程离散化并进行二次预测;

4.根据权利要求1所述方法,其特征在于:在步骤1中,国际海上避碰规则和船舶运动学的约束为:

5.根据权利要求1所述方法,其特征在于:

6.根据权利要求1所述方法,其特征在于:在步骤3中,网络观测模型中奖励反馈的设计具体...

【专利技术属性】
技术研发人员:韩凤磊赵毅铭韩端锋彭潇赵望源吴禹良张嘉伟杨健峰林琪
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1