当前位置: 首页 > 专利查询>清华大学专利>正文

水下多智能体路径规划方法技术

技术编号:39508438 阅读:10 留言:0更新日期:2023-11-25 18:43
本申请涉及一种水下多智能体路径规划方法

【技术实现步骤摘要】
水下多智能体路径规划方法、装置、计算机设备和介质


[0001]本申请涉及机器人
,特别是涉及一种水下多智能体路径规划方法

装置

计算机设备和介质


技术介绍

[0002]在机器人领域中,水下多智能体路径规划是研究机器人自主决策技术的重要内容

水下多智能体路径规划的研究内容通常包括基于单个机器人

固定目标位置和障碍下的水下多智能体路径规划,也包括部分动态情况下等传统水下多智能体路径规划

[0003]传统技术中,对机器人进行水下多智能体路径规划时,准确性较低


技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高水下多智能体路径规划准确性的水下多智能体路径规划方法

装置

计算机设备和介质

[0005]第一方面,本申请提供了一种水下多智能体路径规划方法

所述方法包括:将水下机器人当前时刻的状态空间输入预设模型,得到所述水下机器人下一时刻的速度;所述预设模型是基于预设多智能体强化学习模型及人工势场模型训练得到的;控制所述水下机器人按照所述下一时刻的速度进行移动;根据所述水下机器人当前的总移动步数

预设步数,控制所述水下机器人的移动路径

[0006]在其中一个实施例中,所述根据所述水下机器人当前的总移动步数

预设步数,控制所述水下机器人的移动路径,包括:若所述水下机器人当前的总移动步数达到所述预设步数,则控制所述水下机器人停止移动;若所述水下机器人当前的总移动步数未达到所述预设步数,且所述水下机器人到达目标点,则控制所述水下机器人停止移动;若所述水下机器人当前的总移动步数未达到所述预设步数,且所述水下机器人未到达所述目标点,则返回执行将水下机器人当前时刻的状态空间输入预设模型的步骤

[0007]在其中一个实施例中,所述将水下机器人当前时刻的状态空间输入预设模型,得到所述水下机器人下一时刻的速度,包括:将所述水下机器人当前时刻的状态空间输入至所述预设模型中的多智能体强化学习模型中,得到所述水下机器人当前时刻的动作空间;所述动作空间包括所述水下机器人沿三个坐标轴方向的加速度

纵倾角加速度及偏航角加速度;根据所述人工势场模型及所述水下机器人的质量,得到所述水下机器人在所述人工势场模型下沿三个坐标轴方向的加速度;根据所述水下机器人沿三个坐标轴方向的加速度

所述水下机器人在所述人工势场模型下沿三个坐标轴方向的加速度,得到所述水下机器人下一时刻的速度

[0008]在其中一个实施例中,所述根据所述人工势场模型及所述水下机器人的质量,得到所述水下机器人在所述人工势场模型下沿三个坐标轴方向的加速度,包括:根据所述水下机器人的引力场

斥力场

额外引力场,构建所述人工势场模型;根据所述人工势场模型,得到所述水下机器人在所述人工势场模型下受到的合力;根据所述合力及所述水下机器人的质量,得到所述水下机器人在所述人工势场模型下沿三个坐标轴方向的加速度

[0009]在其中一个实施例中,所述根据所述水下机器人沿三个坐标轴方向的加速度及所述水下机器人在所述人工势场模型下沿三个坐标轴方向的加速度,得到所述水下机器人下一时刻的速度,包括:将所述水下机器人沿三个坐标轴方向的加速度

所述水下机器人在所述人工势场模型下沿三个坐标轴方向的加速度进行加权求和,得到所述水下机器人的目标加速度;根据所述水下机器人当前时刻的状态空间及所述水下机器人的目标加速度,得到所述水下机器人下一时刻的速度

[0010]在其中一个实施例中,所述方法还包括:将所述水下机器人的第
t
时刻的状态空间样本输入至所述预设多智能体强化学习模型中的策略网络,得到第
t
时刻的动作空间样本;利用所述预设多智能体强化学习模型中的
Q
网络,对所述水下机器人执行第
t
时刻的动作空间样本的执行结果进行评价,得到所述水下机器人第
t
时刻的实际奖励值;基于第
t
时刻的实际奖励值和目标函数,得到所述策略网络的第一新参数,采用所述第一新参数对所述策略网络进行更新;根据同一时刻下各所述水下机器人的状态空间样本的集合

同一时刻下所述水下机器人的动作空间样本

同一时刻下的实际奖励值及损失函数,得到所述
Q
网络的第二新参数,采用所述第二新参数对所述
Q
网络进行更新

[0011]第二方面,本申请还提供了一种水下多智能体路径规划装置

所述装置包括:预测模块,用于将水下机器人当前时刻的状态空间输入预设模型,得到所述水下机器人下一时刻的速度;所述预设模型是基于预设多智能体强化学习模型及人工势场模型训练得到的;控制模块,用于控制所述水下机器人按照所述下一时刻的速度进行移动;路径控制模块,用于根据所述水下机器人当前的总移动步数

预设步数,控制所述水下机器人的移动路径

[0012]第三方面,本申请还提供了一种计算机设备

所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法的步骤

[0013]第四方面,本申请还提供了一种计算机可读存储介质

所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面任一项所述的方法的步骤

[0014]第五方面,本申请还提供了一种计算机程序产品

所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述第一方面任一项所述的方法的步骤

[0015]上述水下多智能体路径规划方法

装置

计算机设备和介质,由于预设模型是基于预设多智能体强化学习模型及人工势场模型训练得到的,显然,预设模型结合了预设多智能体强化学习模型及人工势场模型这两个模型的技术优势,相比传统方法中,只用单个模型对水下机器人进行路径规划的精度要更高

因而,用预设模型对水下机器人进行路径规划时,准确度也就更高

附图说明
[0016]图1为一个实施例中水下多智能体路径规划方法的应用环境图;图2为一个实施例中水下多智能体路径规划方法的流程示意图;图3为一个实施例中虚拟目标点的示意图;图4为一个实施例中一种预设模型的训练方法的流程示意图;图5为一个实施例中多个水下机器人的水下多智能体路径规划场景的示意图;图6为一个实施例中预设模型的训练流程的示意图;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种水下多智能体路径规划方法,其特征在于,所述方法包括:将水下机器人当前时刻的状态空间输入预设模型,得到所述水下机器人下一时刻的速度;所述预设模型是基于预设多智能体强化学习模型及人工势场模型训练得到的;控制所述水下机器人按照所述下一时刻的速度进行移动;根据所述水下机器人当前的总移动步数

预设步数,控制所述水下机器人的移动路径
。2.
根据权利要求1所述的方法,其特征在于,所述根据所述水下机器人当前的总移动步数

预设步数,控制所述水下机器人的移动路径,包括:若所述水下机器人当前的总移动步数达到所述预设步数,则控制所述水下机器人停止移动;若所述水下机器人当前的总移动步数未达到所述预设步数,且所述水下机器人到达目标点,则控制所述水下机器人停止移动;若所述水下机器人当前的总移动步数未达到所述预设步数,且所述水下机器人未到达所述目标点,则返回执行将水下机器人当前时刻的状态空间输入预设模型的步骤
。3.
根据权利要求1所述的方法,其特征在于,所述将水下机器人当前时刻的状态空间输入预设模型,得到所述水下机器人下一时刻的速度,包括:将所述水下机器人当前时刻的状态空间输入至所述预设模型中的多智能体强化学习模型中,得到所述水下机器人当前时刻的动作空间;所述动作空间包括所述水下机器人沿三个坐标轴方向的加速度

纵倾角加速度及偏航角加速度;根据所述人工势场模型及所述水下机器人的质量,得到所述水下机器人在所述人工势场模型下沿三个坐标轴方向的加速度;根据所述水下机器人沿三个坐标轴方向的加速度

所述水下机器人在所述人工势场模型下沿三个坐标轴方向的加速度,得到所述水下机器人下一时刻的速度
。4.
根据权利要求3所述的方法,其特征在于,所述根据所述人工势场模型及所述水下机器人的质量,得到所述水下机器人在所述人工势场模型下沿三个坐标轴方向的加速度,包括:根据所述水下机器人的引力场

斥力场

额外引力场,构建所述人工势场模型;根据所述人工势场模型,得到所述水下机器人在所述人工势场模型下受到的合力;根据所述合力及所述水下机器人的质量,得到所述水下机器人在所述人工势场模型下沿三个坐标轴方向的加速度
。5.
根据权利要求3或4所述的方法,其特征在于,所述根据所述水下机器人沿三个坐标轴方向的加速度及所述水下机器人在所述人工势场模型下沿三个坐标轴方向的加速度,得到所述水下机器人下一时刻的速度,包括:将所述水下机器人沿三个坐标轴方向的加速度

所述水下机...

【专利技术属性】
技术研发人员:任勇李宗霖杜军米唯实李劭辉李徵侯向往门伟王子源
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1