一种复杂环境下水下机器人协同捕捞海生物的路径规划方法技术

技术编号:35685967 阅读:14 留言:0更新日期:2022-11-23 14:31
本发明专利技术属于路径规划技术领域,涉及一种复杂环境下水下机器人协同捕捞海生物的路径规划方法,具体流程为基于DBSCAN算法的聚类分布、基于改进粒子群算法的任务分配、双值迭代网络的路径规划。本发明专利技术首先采用一种基于密度的水下海生物目标聚类方法,对抓取目标进行聚类,为抓取任务提供任务目标;又提出一种结合LSTM网络的改进双值迭代网络,得到预测后的水下环境,对原始的地图进行修正;最后提出了一种基于改进粒子群算法的水下多机器人的任务分配方法,通过优化粒子群算法为每个机器人分配的任务,使用改进双值迭代网络,为每个机器人规划长周期的路径,实现复杂环境下水下机器人协同捕捞海生物的路径规划。人协同捕捞海生物的路径规划。人协同捕捞海生物的路径规划。

【技术实现步骤摘要】
一种复杂环境下水下机器人协同捕捞海生物的路径规划方法


[0001]本专利技术属于路径规划
,具体涉及一种复杂环境下水下机器人协同捕捞海生物的路径规划方法。

技术介绍

[0002]目前,自然养殖海参和鲍鱼的捕捞目前主要由潜水员完成。与人工养殖环境相比,近海自然养殖环境不仅深度相对较大,目标生物密度小,而且生长在礁石等环境相近,较大地增加了人力成本和机器捕捞工作的困难。目前水下机器人的捕捞效率和人类相比尚有较大差距,而多水下机器人协同捕捞作业不仅可以较大提高捕捞效率,而且可以实现大面积的捕捞作业,但由于水下障碍物环境复杂,视野受限使得传统的多机器人协作路径规划方法难以适用,需要针对水下捕捞的环境变化进行预测和路径重规划。
[0003]申请号201710301455.0的中国专利文件(公开日:2017年9月15日)中公开的“一种基于行为的多水下机器人路径规划方法”,提供了一种适用于动态未知环境下的多水下机器人路径规划策略,主要通过定义基本行为来对水下机器人的航行路径添加约束,通过建立节能行为、协同行为和安全行为的全局目标函数,通过行为融合生成免于碰撞的最优路径。但难以对复杂和未知的环境实现多水下机器人的捕捞任务分配和协同捕捞路径规划。

技术实现思路

[0004]本专利技术的目的在于一种复杂环境下水下机器人协同捕捞海生物的路径规划方法。
[0005]本专利技术的目的通过如下技术方案来实现:
[0006]一种复杂环境下水下机器人协同捕捞海生物的路径规划方法,具体包括以下步骤:/>[0007]步骤一:提出一种基于密度的水下海生物目标聚类方法;
[0008]根据各个对象之间的欧式距离进行聚类,将水下复杂环境中的海生物根据目标抓取任务需要,对抓取目标进行聚类,得到几个目标群,对于每个目标群求得它的几何中心位置,得到抓取目标点,为抓取任务提供任务目标;
[0009]步骤二:提出一种结合LSTM网络的改进双值迭代网络,并进行训练;
[0010]通过LSTM网络对环境中发生变化的部分进行预测,得到预测后的水下环境,对原始的地图进行修正,并将改进的LSTM模块替代原来的迭代操作,值迭代网络改进的双值迭代网络将更适用于水下的路径规划;
[0011]步骤三:提出了一种基于改进粒子群算法的水下多机器人的任务分配方法;
[0012]通过优化粒子群算法为每个机器人分配的任务,使用改进双值迭代网络,为每个机器人规划长周期的路径,实现复杂环境下水下机器人协同捕捞海生物的路径规划。
[0013]进一步地,所述步骤一中基于密度的水下海生物目标聚类方法包括以下过程:
[0014](1)寻找核心点形成临时聚类簇;
[0015]检查所有的样本点,判断是否为核心点,如果是加入到核心点列表中,并将所有密
度直达的点形成临时聚类簇;
[0016](2)合并临时聚类簇得到聚类簇;
[0017]对于每一个临时聚类簇,判断每一个点是否为核心点,如果是将临时聚类簇合并到当前临时聚类簇,得到新的临时聚类簇;以此类推,直到当前临时聚类簇中的所有密度直达的点都在该临时聚类簇,或者簇内的每一个点都不在核心点列表中,证明已经形成了聚类簇,最后将所有的临时聚类簇合并,完成聚类。
[0018]进一步地,所述步骤二中定义一种改进双值迭代网络的LSTM迭代模块:
[0019]使用LSTM代替值迭代网络中原来的卷积网络,LSTM的输入为奖励图像和隐藏层状态的组合,每一个时刻的更新表示状态

动作价值函数的更新,k次循环后输出的就是最终的状态

动作价值函数,用于后面生成相应的策略;基于LSTM轻量化的价值迭代模块更新公式如下:
[0020]h
k
+C
k
=LSTM(R+h
k
‑1+C
k
‑1)
[0021]其中,R表示奖励函数,C表示细胞状态,h表示隐藏层状态;
[0022]LSTM网络通过循环输入8个时刻的坐标,得到细胞状态和隐藏层状态,根据在接下来12 个时刻每一个时刻输入上一个时刻的坐标,来预测接下来12个时刻的坐标,LSTM细胞的输入特征是64维,并且LSTM细胞中隐藏层维度是128,故一个时刻LSTM的输入是将观测到二维的位置通过全连接层映射为64维向量,上一个时刻输出的128维的隐藏层状态与128维的细胞状态,将得到的特征向量通过高斯分布映射成二维的坐标;则LSTM迭代部分更新式为:
[0023]h
k
+C
k
=LSTM(R+ΔR+h
k
‑1+C
k
‑1)
[0024]进一步地,提出一种对改进双值迭代网络的训练方法:
[0025]对训练环境的设置,值迭代网络仿真所用的地图尺寸有18
×
18,28
×
28;数据集中的样本路径是由Dijstra算法生成,其中训练集中有25000个样本,验证集中有5000个样本,测试集中有5000个样本;生成数据集时,每个栅格地图会储存为一个哈希值,当新生成的地图时,会检查是否与数据集中的地图重复;每个样本包括由环境地图、起点、终点和决策图组成,形成一一对应的标签,与监督学习训练的方法相似;在训练中,采用模仿学习的方法对算法进行训练,评价标准包括规划的路径的长度小于标签路径的长以及路径规划的成功率;
[0026]对于18
×
18的网格,学习率为0.002,训练30轮,迭代20次,批大小为128,28
×
28 的网格,学习率为0.002,训练30轮,迭代36批大小为128,损失函数采用交叉熵函数,并通过Adam优化器更新模型;提出的路径规划算法在ubantu环境中,使用的编译软件是pycharm,使用深度学习框架1.0,随机初始化神经网络的权重参数;对于LSTM网络模型,数据集共有 145段轨迹,每段轨迹有的长度为20,前八个位置坐标作为观测位置,后12个位置坐标为预测位置;50轮训练,每轮训练由58个batch,batchsize为5,对于训练LSTM预测模型,使用随机梯度下降的方法训练模型,学习率为0.003;
[0027]对训练过程,值迭代网络通过正确的路由策略进行训练,是价值地图学习最大价值的方向;采用交叉熵损失函数对网络进行训练;最后,双奖励值迭代网络利用已经学习值迭代地图逐步确定从起点到终点的路径;当多通道值通道和双奖励值迭代网络结构确定后,就可以将训练数据从环境映射到路由策略,从而对双奖励值迭代网络进行端到端训练。
[0028]进一步地,所述步骤三中提出了一种基于改进粒子群算法的水下多机器人的任务分配方法包括以下过程:
[0029]针对于复杂环境下多机器人的任务分配需要根据具体的任务设计粒子,每个粒子代表一次多机器人的任务规划每个粒子包含两个N
num
维向量,分别定义为X
missio本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种复杂环境下水下机器人协同捕捞海生物的路径规划方法,其特征在于:具体包括以下步骤:步骤一:提出一种基于密度的水下海生物目标聚类方法;根据各个对象之间的欧式距离进行聚类,将水下复杂环境中的海生物根据目标抓取任务需要,对抓取目标进行聚类,得到几个目标群,对于每个目标群求得它的几何中心位置,得到抓取目标点,为抓取任务提供任务目标;步骤二:提出一种结合LSTM网络的改进双值迭代网络,并进行训练;通过LSTM网络对环境中发生变化的部分进行预测,得到预测后的水下环境,对原始的地图进行修正,并将改进的LSTM模块替代原来的迭代操作,值迭代网络改进的双值迭代网络将更适用于水下的路径规划;步骤三:提出了一种基于改进粒子群算法的水下多机器人的任务分配方法;通过优化粒子群算法为每个机器人分配的任务,使用改进双值迭代网络,为每个机器人规划长周期的路径,实现复杂环境下水下机器人协同捕捞海生物的路径规划。2.如权利要求1所述的一种复杂环境下水下机器人协同捕捞海生物的路径规划方法,其特征在于:所述步骤一中基于密度的水下海生物目标聚类方法包括以下过程:(1)寻找核心点形成临时聚类簇;检查所有的样本点,判断是否为核心点,如果是加入到核心点列表中,并将所有密度直达的点形成临时聚类簇;(2)合并临时聚类簇得到聚类簇;对于每一个临时聚类簇,判断每一个点是否为核心点,如果是将临时聚类簇合并到当前临时聚类簇,得到新的临时聚类簇;以此类推,直到当前临时聚类簇中的所有密度直达的点都在该临时聚类簇,或者簇内的每一个点都不在核心点列表中,证明已经形成了聚类簇,最后将所有的临时聚类簇合并,完成聚类。3.如权利要求1所述的一种复杂环境下水下机器人协同捕捞海生物的路径规划方法,其特征在于:所述步骤二中定义一种改进双值迭代网络的LSTM迭代模块:使用LSTM代替值迭代网络中原来的卷积网络,LSTM的输入为奖励图像和隐藏层状态的组合,每一个时刻的更新表示状态

动作价值函数的更新,k次循环后输出的就是最终的状态

动作价值函数,用于后面生成相应的策略;基于LSTM轻量化的价值迭代模块更新公式如下:h
k
+C
k
=LSTM(R+h
k
‑1+C
k
‑1)其中,R表示奖励函数,C表示细胞状态,h表示隐藏层状态;LSTM网络通过循环输入8个时刻的坐标,得到细胞状态和隐藏层状态,根据在接下来12个时刻每一个时刻输入上一个时刻的坐标,来预测接下来12个时刻的坐标,LSTM细胞的输入特征是64维,并且LSTM细胞中隐藏层维度是128,故一个时刻LSTM的输入是将观测到二维的位置通过全连接层映射为64维向量,上一个时刻输出的128维的隐藏层状态与128维的细胞状态,将得到的特征向量通过高斯分布映射成二维的坐标;则LSTM迭代部分更新式为:h
k
ΔC
k
=LSTM(R+R+h
k
‑1+C
k
‑1)4.根据权利要求3所述的一种复杂环境下水下机器人协同捕捞海生物的路径规划方
法,其特征在于:提出一种对改进双值迭代网络的训练方法:对训练环境的设置,值迭代网络仿真所用的地图尺寸有18
×
18,28
×
28;数据集中的样本路径是由Dijstra算法生成,其中训练集中有25000个样本,验证集中有5000个样本,测试集中有5000个样本;生成数据集时,每个栅格地图会储存为一个哈希值,当新生成的地图时,会检查是否与数据集中的地图重复;每个样本包括由环境地图、起点、终点和决策图组成,形成一一对应的标签,与监督学习训练的方法相似;在训练中,采用模仿学习的方法对算法进行训练,评价标准包括规划的路径的长度小于标签路径的长以及路径规划的成功率;对于18
×
18的网格,学习率为0.002,训练30轮,迭代20次,批大小为128,28
×
28的网格,学习率为0.002,训练30轮,迭代36批大小为1...

【专利技术属性】
技术研发人员:黄海孙溢泽张震坤靳佰达卞鑫宇姜涛蔡峰春韩鑫悦王兆群
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1