【技术实现步骤摘要】
一种基于深度强化学习的群无人艇智能避碰方法
本专利技术属于深度强化学习训练系统、无人艇智能避碰
,更具体地,涉及一种无人艇避碰系统存在深度强化学习情况下,提出了一种能够有效训练群无人艇自主避碰的智能避碰方法。
技术介绍
随着船舶工业、人工智能等领域新型技术的发展,无人艇在海洋开发、海事管理等领域发挥出了巨大的作用。在某些复杂应用场景中,单一无人艇无法完成任务,需要多艘无人艇协同作业,即群无人艇(swarmofUSVs,USVs)协同作业以完成任务需求。群无人艇避碰要求无人艇之间安全避让,如采用现有的无人艇避碰方法,会造成计算分析量庞大、计算效率低、方案效果差,难以实现快速的避碰决策。因此,亟需设计一种适用于群无人艇的新型避碰方法。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提出了一种基于深度强化学习的群无人艇智能避碰方法,由此解决现有无人艇避碰方法存在的计算分析量庞大、计算效率低、方案效果差及难以实现快速的避碰决策的技术问题。为实现上述目的,本专利技术提供了一种基于深度强化学习的群无人艇智能避碰方法,包括:S1:建立艇体坐标系,并基于所述艇体坐标系设计USV运动模型,其中,所述USV运动模型用于反映无人艇的运动状态;S2:基于所述USV运动模型,将所述艇体坐标系中的环境特征表示为固定维度的环境观察值,并基于所述环境观察值设计避碰效果奖惩函数,其中,所述避碰效果奖惩函数用于判断无人艇避碰决策的优劣程度;S3:融合LSTM神经网络和深度强化学习原理 ...
【技术保护点】
1.一种基于深度强化学习的群无人艇智能避碰方法,其特征在于,包括:/nS1:建立艇体坐标系,并基于所述艇体坐标系设计USV运动模型,其中,所述USV运动模型用于反映无人艇的运动状态;/nS2:基于所述USV运动模型,将所述艇体坐标系中的环境特征表示为固定维度的环境观察值,并基于所述环境观察值设计避碰效果奖惩函数,其中,所述避碰效果奖惩函数用于判断无人艇避碰决策的优劣程度;/nS3:融合LSTM神经网络和深度强化学习原理构建群无人艇避碰训练模型;/nS4:基于所述群无人艇避碰训练模型训练USV在群无人艇环境下的避碰。/n
【技术特征摘要】
1.一种基于深度强化学习的群无人艇智能避碰方法,其特征在于,包括:
S1:建立艇体坐标系,并基于所述艇体坐标系设计USV运动模型,其中,所述USV运动模型用于反映无人艇的运动状态;
S2:基于所述USV运动模型,将所述艇体坐标系中的环境特征表示为固定维度的环境观察值,并基于所述环境观察值设计避碰效果奖惩函数,其中,所述避碰效果奖惩函数用于判断无人艇避碰决策的优劣程度;
S3:融合LSTM神经网络和深度强化学习原理构建群无人艇避碰训练模型;
S4:基于所述群无人艇避碰训练模型训练USV在群无人艇环境下的避碰。
2.根据权利要求1所述的方法,其特征在于,在步骤S1中,所述建立艇体坐标系,包括:
由将周边无人艇转换成艇体坐标系下的属性表示,其中,(Xj,Yj)表示艇体坐标系下USVj的位置,(Px_i,Py_i)表示全局坐标系下USVi的位置,Ci表示全局坐标系下USVi的航向,Vi表示全局坐标系下USVi的航速,cj表示艇体坐标系下USVj的航向,vj表示艇体坐标系下USVj的航速,θj表示艇体坐标系下USVj的舷角,ψj表示艇体坐标系下USVj的舵角,(Px_j,Py_j)表示全局坐标系下USVj的位置,Cj表示全局坐标系下USVj的航向,Vj表示全局坐标系下USVj的航速,δj表示全局坐标系下USVj的舵角,下标i和j用于区分不同的无人艇。
3.根据权利要求2所述的方法,其特征在于,在步骤S1中,所述基于所述艇体坐标系设计USV运动模型,包括:
在运动仿真中使用野本谦作方程作为无人艇运动方程,并嵌入PID模拟自主航向控制以构成所述USV运动模型,使得无人艇具有通过控制舵角快速调整航向的能力。
4.根据权利要求3所述的方法,其特征在于,由模拟自主航向控制,其中,k表示执行第k次决策的动作,Ek表示第k次航向偏差值,Ctraget表示目标航向,Ck表示第k次航向角,δk和δk-1分别表示第k和第k-1次舵角,Kp表示比例系数,Ki表示积分系数,Kd表示微分系数,f表示扫描频率,Δu(k)表示第k次舵角增量,Ek-1表示第k-1次航向角,Ek-2表示第k-2次航向角。
5.根据权利要求2所述的方法,其特征在于,在步骤S2中,所述基于所述USV运动模型,将所述艇体坐标系中的环境特征表示为固定维度的环境观察值,包括:
根据国际海上避碰规则COLREGS,按照障碍物USVj舷角划分为n个领域,并得到每个领域的USV环境观察值,其中,所述每个领域的USV环境观察值均包括舷角、群组运动特征、运动趋势及危险度;
将每个领域的环境观察值组合形成四维矩阵,并在每一领域对应的四维矩阵添加权重,得到最终的环境观察值。
6.根据权利要求5所述的方法,其特征在于,由得到每个领域的USV环境...
【专利技术属性】
技术研发人员:马勇,赵玉蛟,王玉龙,
申请(专利权)人:武汉理工大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。