一种基于深度强化学习的群无人艇智能避碰方法技术

技术编号:23048868 阅读:68 留言:0更新日期:2020-01-07 14:35
本发明专利技术公开了一种基于深度强化学习的群无人艇智能避碰方法,属于深度强化学习系统、无人艇智能避碰技术领域,为智能无人艇系统提供一种智能化避碰方法。首先,提出了一种基于深度强化学习的群无人艇自主学习避碰的理论框架,并融合LSTM神经网络记忆能力实现避碰动作的连续性。然后,针对框架中USV环境获取设计表征方法,即环境观察值,并提出USV避碰奖惩函数评判避碰效果。最后,形成一套群无人艇智能避碰深度强化学习训练系统。本发明专利技术通过仿真模拟和验证表明,经过本发明专利技术训练的USV能够在群无人艇避碰环境下安全航行并实现智能避碰。

An intelligent collision avoidance method for group unmanned vehicle based on deep reinforcement learning

【技术实现步骤摘要】
一种基于深度强化学习的群无人艇智能避碰方法
本专利技术属于深度强化学习训练系统、无人艇智能避碰
,更具体地,涉及一种无人艇避碰系统存在深度强化学习情况下,提出了一种能够有效训练群无人艇自主避碰的智能避碰方法。
技术介绍
随着船舶工业、人工智能等领域新型技术的发展,无人艇在海洋开发、海事管理等领域发挥出了巨大的作用。在某些复杂应用场景中,单一无人艇无法完成任务,需要多艘无人艇协同作业,即群无人艇(swarmofUSVs,USVs)协同作业以完成任务需求。群无人艇避碰要求无人艇之间安全避让,如采用现有的无人艇避碰方法,会造成计算分析量庞大、计算效率低、方案效果差,难以实现快速的避碰决策。因此,亟需设计一种适用于群无人艇的新型避碰方法。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提出了一种基于深度强化学习的群无人艇智能避碰方法,由此解决现有无人艇避碰方法存在的计算分析量庞大、计算效率低、方案效果差及难以实现快速的避碰决策的技术问题。为实现上述目的,本专利技术提供了一种基于深度强化学习的群无人艇智能避碰方法,包括:S1:建立艇体坐标系,并基于所述艇体坐标系设计USV运动模型,其中,所述USV运动模型用于反映无人艇的运动状态;S2:基于所述USV运动模型,将所述艇体坐标系中的环境特征表示为固定维度的环境观察值,并基于所述环境观察值设计避碰效果奖惩函数,其中,所述避碰效果奖惩函数用于判断无人艇避碰决策的优劣程度;S3:融合LSTM神经网络和深度强化学习原理构建群无人艇避碰训练模型;S4:基于所述群无人艇避碰训练模型训练USV在群无人艇环境下的避碰。优选地,在步骤S1中,所述建立艇体坐标系,包括:由将周边无人艇转换成艇体坐标系下的属性表示,其中,(Xj,Yj)表示艇体坐标系下USVj的位置,(Px_i,Py_i)表示全局坐标系下USVi的位置,Ci表示全局坐标系下USVi的航向,Vi表示全局坐标系下USVi的航速,cj表示艇体坐标系下USVj的航向,vj表示艇体坐标系下USVj的航速,θj表示艇体坐标系下USVj的舷角,ψj表示艇体坐标系下USVj的舵角,(Px_j,Py_j)表示全局坐标系下USVj的位置,Cj表示全局坐标系下USVj的航向,Vj表示全局坐标系下USVj的航速,δj表示全局坐标系下USVj的舵角,下标i和j用于区分不同的无人艇。优选地,在步骤S1中,所述基于所述艇体坐标系设计USV运动模型,包括:在运动仿真中使用野本谦作方程作为无人艇运动方程,并嵌入PID模拟自主航向控制以构成所述USV运动模型,使得无人艇具有通过控制舵角快速调整航向的能力。优选地,由模拟自主航向控制,其中,k表示执行第k次决策的动作,Ek表示第k次航向偏差值,Ctraget表示目标航向,Ck表示第k次航向角,δk和δk-1分别表示第k和第k-1次舵角,Kp表示比例系数,Ki表示积分系数,Kd表示微分系数,f表示扫描频率,Δu(k)表示第k次舵角增量,Ek-1表示第k-1次航向角,Ek-2表示第k-2次航向角。优选地,在步骤S2中,所述基于所述USV运动模型,将所述艇体坐标系中的环境特征表示为固定维度的环境观察值,包括:根据国际海上避碰规则COLREGS,按照障碍物USVj舷角划分为n个领域,并得到每个领域的USV环境观察值,其中,所述每个领域的USV环境观察值均包括舷角、群组运动特征、运动趋势及危险度;将每个领域的环境观察值组合形成四维矩阵,并在每一领域对应的四维矩阵添加权重,得到最终的环境观察值。优选地,由得到每个领域的USV环境观察值,其中,θmax和θmin表示本划分领域中障碍物所在的最大舷角和最小舷角;Cj表示障碍物运动方向;CRIj表示USVj危险度;dj表示USVi距离障碍物USVj的距离,Vj_x和Vj_y分别表示障碍物USVj速度x水平分量和y垂直分量。优选地,由形成各领域的四维矩阵,u=(1,2,...,n),由st=[ViCiχ1S1χ2S2χ3S3...χnSn]T得到最终的环境观察值,其中,χ1、χ2、χ3、…、χn分别为对应领域的权重。优选地,由设计奖惩函数,其中,CRIt′表示t时刻领域危险度,表示t时刻领域障碍物平均距离,at(C)表示决策集合中航向变化,at(V)表示决策集合航速变化,Rdanger考虑会遇态势奖惩计算,表示危险程度的变化趋势,Rrule计算当前的决策与COLREGS规则的偏差度,若违反规则得到一个惩罚性负值,Raction表示操纵决策动作连贯性,计算避碰中决策震荡的影响,rt表示综合以上因素形成奖惩值,DCPAi表示本船与USVi间最小会遇距离,Ds表示两船之间避免发生碰撞的安全距离,kCRI表示碰撞危险度影响系数,DLMA表示船舶实施满舵旋回避碰行动、另一船直航条件下两船能避免碰撞的最近距离,V0表示本船初始航速,Vs表示在考虑船舶航速、船间安全距离及通航环境影响下计算出了船舶的安全航速,kaction表示动作影响系数,δt表示本船舵角。优选地,步骤S3包括:由MainNet和TargetNet构成所述群无人艇避碰训练模型,其中,所述MainNet和所述TargetNet均包括一套Actor神经网络和一套CriticQ神经网络,所述Actor神经网络根据无人艇观察值输出避碰动作,其为具有若干层计算单元的LSTM神经网络,以达到记忆避碰动作的效果;所述CriticQ神经网络根据动作和动作结果评判出当前次计算的优劣程度;所述Actor神经网络和所述CriticQ神经网络独立计算,并且所述CriticQ神经网络能够根据评判结果计算梯度,进而更新神经网络的权重参数。优选地,步骤S4包括:设计仿真环境,其中,所述仿真环境中的仿真对象是USV,USV收到避碰决策后,改变舵角和航速,完成一次避碰动作;设定所述仿真环境中障碍物均为USVs,用来产生训练样本,其中,每一艘USV都由所述群无人艇避碰训练模型决策避碰动作,产生的(st,at,rt,st+1)都将存储入所述群无人艇避碰训练模型的经验池中,供神经网络训练参数,下标t和t+1表示时刻;USV在所述仿真环境中与所述群无人艇避碰训练模型不断交互和迭代,直至所有无人艇都能够安全驶过让清并完成避碰。总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,能够取得下列有益效果:1、本专利技术能够有效解决群无人艇智能避碰问题,通过在虚拟环境中训练群无人艇避碰,并保存经验数据,应用于实际的USV群无人艇避碰中。采用基于深度强化学习理论的训练方法,可以提高群无人艇避碰在不同避碰环境下的适应性,得到驶过让清的群无人艇避碰效果。2、提出一种表示USV周边环境和会遇态势的特征提取方法,使用可量化的计算方法实现对动态避碰环境的描述,并使用固定维度的矩阵表示。同时,设计了一种判断USV避碰效果的奖惩函数,能够对USV当前状态下的避碰效果做出评判并反馈于避碰训练模型。3、利用LSTM本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的群无人艇智能避碰方法,其特征在于,包括:/nS1:建立艇体坐标系,并基于所述艇体坐标系设计USV运动模型,其中,所述USV运动模型用于反映无人艇的运动状态;/nS2:基于所述USV运动模型,将所述艇体坐标系中的环境特征表示为固定维度的环境观察值,并基于所述环境观察值设计避碰效果奖惩函数,其中,所述避碰效果奖惩函数用于判断无人艇避碰决策的优劣程度;/nS3:融合LSTM神经网络和深度强化学习原理构建群无人艇避碰训练模型;/nS4:基于所述群无人艇避碰训练模型训练USV在群无人艇环境下的避碰。/n

【技术特征摘要】
1.一种基于深度强化学习的群无人艇智能避碰方法,其特征在于,包括:
S1:建立艇体坐标系,并基于所述艇体坐标系设计USV运动模型,其中,所述USV运动模型用于反映无人艇的运动状态;
S2:基于所述USV运动模型,将所述艇体坐标系中的环境特征表示为固定维度的环境观察值,并基于所述环境观察值设计避碰效果奖惩函数,其中,所述避碰效果奖惩函数用于判断无人艇避碰决策的优劣程度;
S3:融合LSTM神经网络和深度强化学习原理构建群无人艇避碰训练模型;
S4:基于所述群无人艇避碰训练模型训练USV在群无人艇环境下的避碰。


2.根据权利要求1所述的方法,其特征在于,在步骤S1中,所述建立艇体坐标系,包括:
由将周边无人艇转换成艇体坐标系下的属性表示,其中,(Xj,Yj)表示艇体坐标系下USVj的位置,(Px_i,Py_i)表示全局坐标系下USVi的位置,Ci表示全局坐标系下USVi的航向,Vi表示全局坐标系下USVi的航速,cj表示艇体坐标系下USVj的航向,vj表示艇体坐标系下USVj的航速,θj表示艇体坐标系下USVj的舷角,ψj表示艇体坐标系下USVj的舵角,(Px_j,Py_j)表示全局坐标系下USVj的位置,Cj表示全局坐标系下USVj的航向,Vj表示全局坐标系下USVj的航速,δj表示全局坐标系下USVj的舵角,下标i和j用于区分不同的无人艇。


3.根据权利要求2所述的方法,其特征在于,在步骤S1中,所述基于所述艇体坐标系设计USV运动模型,包括:
在运动仿真中使用野本谦作方程作为无人艇运动方程,并嵌入PID模拟自主航向控制以构成所述USV运动模型,使得无人艇具有通过控制舵角快速调整航向的能力。


4.根据权利要求3所述的方法,其特征在于,由模拟自主航向控制,其中,k表示执行第k次决策的动作,Ek表示第k次航向偏差值,Ctraget表示目标航向,Ck表示第k次航向角,δk和δk-1分别表示第k和第k-1次舵角,Kp表示比例系数,Ki表示积分系数,Kd表示微分系数,f表示扫描频率,Δu(k)表示第k次舵角增量,Ek-1表示第k-1次航向角,Ek-2表示第k-2次航向角。


5.根据权利要求2所述的方法,其特征在于,在步骤S2中,所述基于所述USV运动模型,将所述艇体坐标系中的环境特征表示为固定维度的环境观察值,包括:
根据国际海上避碰规则COLREGS,按照障碍物USVj舷角划分为n个领域,并得到每个领域的USV环境观察值,其中,所述每个领域的USV环境观察值均包括舷角、群组运动特征、运动趋势及危险度;
将每个领域的环境观察值组合形成四维矩阵,并在每一领域对应的四维矩阵添加权重,得到最终的环境观察值。


6.根据权利要求5所述的方法,其特征在于,由得到每个领域的USV环境...

【专利技术属性】
技术研发人员:马勇赵玉蛟王玉龙
申请(专利权)人:武汉理工大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1