一种USV无人艇路径规划模型的构建方法及应用技术

技术编号:34697896 阅读:47 留言:0更新日期:2022-08-27 16:33
本发明专利技术公开了一种USV无人艇路径规划模型的构建方法及应用,属于无人艇路径规划技术领域;基于DDQN网络搭建了USV无人艇路径规划模型,以根据从无人艇中观察到的连续状态做出决策;其中,模型的状态空间包括无人艇的状态观测值,具体包括无人艇的位置状态信息、航向误差和无人艇周围的障碍物距离信息;动作空间包括单位时间内的无人艇的行进动作指令;本发明专利技术基于先验知识和奖励塑形技术设计了一种引入速度收益、距离障碍物的势和航行误差的奖励函数,有效地提高了模型的精确度,显著加速了训练过程中模型的收敛,解决了无人艇在未知且带障碍环境下的路径规划及避障问题,显著地提升了模型训练时的收敛性和稳定性,能够在真实环境下实现安全高效的导航。境下实现安全高效的导航。境下实现安全高效的导航。

【技术实现步骤摘要】
一种USV无人艇路径规划模型的构建方法及应用


[0001]本专利技术属于无人艇路径规划
,更具体地,涉及一种USV无人艇路径规划模型的构建方法及应用。

技术介绍

[0002]无人水面艇(unmanned surface vessel,简称USV),是一种无人操作的水面舰艇。由于其灵活自上个世纪以来就受到了广泛的关注与研究。但是当时的无人艇由于技术限制,也只能执行一些简单的任务,并没有引起巨大关注。近年来随着人工智能技术的兴起,无人船的控制决策技术得到了很大的提升,配合通信技术以及制造工艺的发展,无人船USV已经可以执行更加复杂的任务。虽然无人艇需要完成多种任务,但导航能力和避障能力是它们应该具备的两项基本能力,因此研究一种USV无人艇路径规划方法存在重要意义。
[0003]传统USV无人艇路径规划方法中往往将基于数学分析的模型用于无人艇控制,例如基于启发式算法优化的线性化模型,基于扩展卡尔曼滤波器(EKF)、搜索求和势场的融合模型等,但是当环境极其复杂或发生变化时,由于它们无法考虑足够多的情况,也不具有学习的能力而变化控制策略,这些传统模型经常无法满足系统控制要求。
[0004]随着人工智能快速发展,越来越多的研究聚焦于通过机器学习(ML)方法进行无人艇(USV)控制,与传统方法相比,它克服了可用性问题。强化学习(Reinforcement Learning)作为机器学习的一个分支,描述了智能体通过与环境交互的方式学习的过程,近年来被频繁地应用于无人艇相关的控制策略设计中。但是,USV控制的强化学习模型往往具有复杂的状态和动作空间以及稀疏的奖励,并采用超大规模的神经网络做状态的感知和动作的决策,需要足够多的训练时间,其参数量巨大的网络才能达到近似收敛,虽然也有一部分模型控制了网络规模,但是它们通常仅假设了十分简单的仿真环境,与现实环境相差很多而无法在真实环境中使用。另外,由于强化学习算法模型对于无人艇模型存在适配性问题,需要通过自己建模,搭建仿真环境,修改算法模型来适配无人艇的动作及状态空间,且其用以指导模型收敛到总收益最大的奖励函数往往难以量化表示,并且存在稀疏奖励环境问题,从而导致agent智能体学习缓慢甚至会学习到并非我们期望的行为,因此现有的算法往往很难在较少的训练次数下规划出非常安全高效的路径,因此难以部署到实机模型上。

技术实现思路

[0005]针对现有技术的以上缺陷或改进需求,本专利技术提供了一种USV无人艇路径规划模型的构建方法及应用,用以解决现有无法在真实环境下进行安全高效的导航的技术问题。
[0006]为了实现上述目的,第一方面,本专利技术提供了一种USV无人艇路径规划模型的构建方法,包括:
[0007]S1、基于DDQN网络搭建USV无人艇路径规划模型,包括:状态空间、动作空间和奖励函数;状态空间包括无人艇的状态观测值,具体包括无人艇的位置状态信息、航向误差和无人艇周围的障碍物距离信息;动作空间包括:单位时间内的无人艇的行进动作指令;奖励函
数用于基于下一时刻下无人艇的状态观测值,计算当前时刻下所选取的行进动作指令的反馈值,以对无人艇当前时刻的动作决策进行奖惩评估;
[0008]上述USV无人艇路径规划模型用于根据当前时刻无人艇的状态观测值获取当前时刻无人艇的行进动作指令,以实时控制无人艇的运动;
[0009]S2、在无人艇从起始位置到目标位置的运动过程中,采集每一时刻下所得的数据样本,并存储在经验回放池中;其中,第j个时刻下所得的数据样本的采集过程包括:将第j个时刻下无人艇的状态观测值s
j
输入到上述USV无人艇路径规划模型中得到第j个时刻下无人艇的行进动作指令a
j
,从而得到第j+1个时刻下无人艇的状态观测值s
j+1
,并将状态观测值s
j+1
带入上述奖励函数中计算得到行进动作指令a
j
所对应的奖励r
j
;将s
j
、a
j
、r
j
和s
j+1
组成的四元数作为第j个时刻下所得的数据样本,记为(s
j
,a
j
,r
j
,s
j+1
);
[0010]S3、从经验回放池抽取数据样本构成训练样本集,并输入至USV无人艇路径规划模型中,基于DDQN算法进行训练。
[0011]进一步优选地,上述奖励函数为:
[0012][0013][0014][0015][0016][0017][0018]其中,λ
col
为碰撞影响因子;λ
dis
为目的地距离影响因子;λ
obs_dis
为障碍物距离影响因子;λ
speed
为行进速度影响因子;λ
yaw
为偏航影响因子;P
knock
为预设碰撞惩罚值,为负数;dist
j+1
为第j+1个时刻下无人艇与最近障碍物之间的距离;dist
safe
为预设安全距离;(x
j+1
,y
j+1
)为第j+1个时刻下无人艇的坐标;(x
d
,y
d
)为目标位置的坐标;n为无人艇周围的障碍物数量;为第j+1个时刻下无人艇周围的第i个障碍物的坐标;为第j+1个时刻下无人艇的浪涌速度;为第j+1个时刻下无人艇的航向误差。
[0019]进一步优选地,的计算公式为:其中,ψ
j+1
为第j+1个时刻下USV无人艇的方位。
[0020]进一步优选地,无人艇的行进动作指令a
j
包括:浪涌速度指令和偏航速度指令
[0021]上述USV无人艇路径规划模型包括并联的第一DDQN网络和第二DDQN网络。
[0022]进一步优选地,上述步骤S3包括:
[0023]S31、从经验回放池抽取数据样本,并分别将所抽取的各数据样本划分为第一子训
练样本和第二子训练样本;
[0024]其中,对所抽取的数据样本(s
j
,a
j
,r
j
,s
j+1
)进行划分方法包括:根据行进动作指令a
j
的类型将数据样本(s
j
,a
j
,r
j
,s
j+1
)划分为第一子训练样本和第二子训练样本
[0025]S32、同时将第一子训练样本输入至第一DDQN网络中,第二子训练样本输入至第二DDQN网络中进行训练。
[0026]进一步优选地,无人艇的行进动作指令a
j
包括:浪涌速度指令偏航速度指令和摇摆速度指令
[0027]上述USV无人艇路径规划模型包括并联的第一DDQN网络、第二DDQN网络和第三DDQN网络。
[0028]进一步优选地,上本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种USV无人艇路径规划模型的构建方法,其特征在于,包括:S1、基于DDQN网络搭建USV无人艇路径规划模型,包括:状态空间、动作空间和奖励函数;所述状态空间包括无人艇的状态观测值,具体包括无人艇的位置状态信息、航向误差和无人艇周围的障碍物距离信息;所述动作空间包括:单位时间内的无人艇的行进动作指令;所述奖励函数用于基于下一时刻下无人艇的状态观测值,计算当前时刻下所选取的行进动作指令的反馈值,以对无人艇当前时刻的动作决策进行奖惩评估;所述USV无人艇路径规划模型用于根据当前时刻无人艇的状态观测值获取当前时刻无人艇的行进动作指令,以实时控制无人艇的运动;S2、在无人艇从起始位置到目标位置的运动过程中,采集每一时刻下所得的数据样本,并存储在经验回放池中;其中,第j个时刻下所得的数据样本的采集过程包括:将第j个时刻下无人艇的状态观测值s
j
输入到所述USV无人艇路径规划模型中得到第j个时刻下无人艇的行进动作指令a
j
,从而得到第j+1个时刻下无人艇的状态观测值s
j+1
,并将状态观测值s
j+1
带入所述奖励函数中计算得到行进动作指令a
j
所对应的奖励r
j
;将s
j
、a
j
、r
j
和s
j+1
组成的四元数作为第j个时刻下所得的数据样本,记为(s
j
,a
j
,r
j
,s
j+1
);S3、从所述经验回放池抽取数据样本构成训练样本集,并输入至所述USV无人艇路径规划模型中,基于DDQN算法进行训练。2.根据权利要求1所述的USV无人艇路径规划模型的构建方法,其特征在于,所述奖励函数为:函数为:函数为:函数为:函数为:函数为:其中,λ
col
为碰撞影响因子;λ
dis
为目的地距离影响因子;λ
obs_dis
为障碍物距离影响因子;λ
speed
为行进速度影响因子;λ
yaw
为偏航影响因子;P
knock
为预设碰撞惩罚值,为负数;dist
j+1
为第j+1个时刻下无人艇与最近障碍物之间的距离;dist
safe
为预设安全距离;(x
j+1
,y
j+1
)为第j+1个时刻下无人艇的坐标;(x
d
,y
d
)为目标位置的坐标;n为无人艇周围的障碍物数量;为第j+1个时刻下无人艇周围的第i个障碍物的坐标;为第j+1个时刻下无人艇的浪涌速度;为第j+1个时刻下无人艇的航向误差。3.根据权利要求2所述的USV无人艇路径规划模型的构建方法,其特征在于,的计
算公式为:其中,ψ
j+1
为第j+1个时刻下USV无人艇的方位。4.根据权利要求1

3任意一项所述的USV无人艇路径规划模型的构建方法,其特征在于,所述无人艇的行进动作...

【专利技术属性】
技术研发人员:卢仁智郑璟泓甘子涵
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1