一种基于深度强化学习的群无人艇智能避碰方法技术

技术编号：23048868 阅读：68 留言：0更新日期：2020-01-07 14:35

本发明专利技术公开了一种基于深度强化学习的群无人艇智能避碰方法，属于深度强化学习系统、无人艇智能避碰技术领域，为智能无人艇系统提供一种智能化避碰方法。首先，提出了一种基于深度强化学习的群无人艇自主学习避碰的理论框架，并融合LSTM神经网络记忆能力实现避碰动作的连续性。然后，针对框架中USV环境获取设计表征方法，即环境观察值，并提出USV避碰奖惩函数评判避碰效果。最后，形成一套群无人艇智能避碰深度强化学习训练系统。本发明专利技术通过仿真模拟和验证表明，经过本发明专利技术训练的USV能够在群无人艇避碰环境下安全航行并实现智能避碰。

An intelligent collision avoidance method for group unmanned vehicle based on deep reinforcement learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的群无人艇智能避碰方法
本专利技术属于深度强化学习训练系统、无人艇智能避碰
，更具体地，涉及一种无人艇避碰系统存在深度强化学习情况下，提出了一种能够有效训练群无人艇自主避碰的智能避碰方法。
技术介绍
随着船舶工业、人工智能等领域新型技术的发展，无人艇在海洋开发、海事管理等领域发挥出了巨大的作用。在某些复杂应用场景中，单一无人艇无法完成任务，需要多艘无人艇协同作业，即群无人艇(swarmofUSVs，USVs)协同作业以完成任务需求。群无人艇避碰要求无人艇之间安全避让，如采用现有的无人艇避碰方法，会造成计算分析量庞大、计算效率低、方案效果差，难以实现快速的避碰决策。因此，亟需设计一种适用于群无人艇的新型避碰方法。
技术实现思路
针对现有技术的以上缺陷或改进需求，本专利技术提出了一种基于深度强化学习的群无人艇智能避碰方法，由此解决现有无人艇避碰方法存在的计算分析量庞大、计算效率低、方案效果差及难以实现快速的避碰决策的技术问题。为实现上述目的，本专利技术提供了一种基于深度强化学习的群无人艇智能避碰方法，包括：S1：建立艇体坐标系，并基于所述艇体坐标系设计USV运动模型，其中，所述USV运动模型用于反映无人艇的运动状态；S2：基于所述USV运动模型，将所述艇体坐标系中的环境特征表示为固定维度的环境观察值，并基于所述环境观察值设计避碰效果奖惩函数，其中，所述避碰效果奖惩函数用于判断无人艇避碰决策的优劣程度；S3：融合LSTM神经网络和深度强化学习原理...

【技术保护点】
1.一种基于深度强化学习的群无人艇智能避碰方法，其特征在于，包括：/nS1：建立艇体坐标系，并基于所述艇体坐标系设计USV运动模型，其中，所述USV运动模型用于反映无人艇的运动状态；/nS2：基于所述USV运动模型，将所述艇体坐标系中的环境特征表示为固定维度的环境观察值，并基于所述环境观察值设计避碰效果奖惩函数，其中，所述避碰效果奖惩函数用于判断无人艇避碰决策的优劣程度；/nS3：融合LSTM神经网络和深度强化学习原理构建群无人艇避碰训练模型；/nS4：基于所述群无人艇避碰训练模型训练USV在群无人艇环境下的避碰。/n

【技术特征摘要】
1.一种基于深度强化学习的群无人艇智能避碰方法，其特征在于，包括：
S1：建立艇体坐标系，并基于所述艇体坐标系设计USV运动模型，其中，所述USV运动模型用于反映无人艇的运动状态；
S2：基于所述USV运动模型，将所述艇体坐标系中的环境特征表示为固定维度的环境观察值，并基于所述环境观察值设计避碰效果奖惩函数，其中，所述避碰效果奖惩函数用于判断无人艇避碰决策的优劣程度；
S3：融合LSTM神经网络和深度强化学习原理构建群无人艇避碰训练模型；
S4：基于所述群无人艇避碰训练模型训练USV在群无人艇环境下的避碰。

2.根据权利要求1所述的方法，其特征在于，在步骤S1中，所述建立艇体坐标系，包括：
由将周边无人艇转换成艇体坐标系下的属性表示，其中，(Xj,Yj)表示艇体坐标系下USVj的位置，(Px_i,Py_i)表示全局坐标系下USVi的位置，Ci表示全局坐标系下USVi的航向，Vi表示全局坐标系下USVi的航速，cj表示艇体坐标系下USVj的航向，vj表示艇体坐标系下USVj的航速，θj表示艇体坐标系下USVj的舷角，ψj表示艇体坐标系下USVj的舵角，(Px_j,Py_j)表示全局坐标系下USVj的位置，Cj表示全局坐标系下USVj的航向，Vj表示全局坐标系下USVj的航速，δj表示全局坐标系下USVj的舵角，下标i和j用于区分不同的无人艇。

3.根据权利要求2所述的方法，其特征在于，在步骤S1中，所述基于所述艇体坐标系设计USV运动模型，包括：
在运动仿真中使用野本谦作方程作为无人艇运动方程，并嵌入PID模拟自主航向控制以构成所述USV运动模型，使得无人艇具有通过控制舵角快速调整航向的能力。

4.根据权利要求3所述的方法，其特征在于，由模拟自主航向控制，其中，k表示执行第k次决策的动作，Ek表示第k次航向偏差值，Ctraget表示目标航向，Ck表示第k次航向角，δk和δk-1分别表示第k和第k-1次舵角，Kp表示比例系数，Ki表示积分系数，Kd表示微分系数，f表示扫描频率，Δu(k)表示第k次舵角增量，Ek-1表示第k-1次航向角，Ek-2表示第k-2次航向角。

5.根据权利要求2所述的方法，其特征在于，在步骤S2中，所述基于所述USV运动模型，将所述艇体坐标系中的环境特征表示为固定维度的环境观察值，包括：
根据国际海上避碰规则COLREGS，按照障碍物USVj舷角划分为n个领域，并得到每个领域的USV环境观察值，其中，所述每个领域的USV环境观察值均包括舷角、群组运动特征、运动趋势及危险度；
将每个领域的环境观察值组合形成四维矩阵，并在每一领域对应的四维矩阵添加权重，得到最终的环境观察值。

6.根据权利要求5所述的方法，其特征在于，由得到每个领域的USV环境...

【专利技术属性】
技术研发人员：马勇，赵玉蛟，王玉龙，
申请(专利权)人：武汉理工大学，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人