System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于视触融合的抓握物体分类方法技术_技高网
当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于视触融合的抓握物体分类方法技术

技术编号:40529412 阅读:21 留言:0更新日期:2024-03-01 13:49
本发明专利技术公开了一种基于视触融合的抓握物体分类方法,其步骤如下:获取将经过数据预处理待分类物体的视觉图像数据和触觉图像数据输入到经过训练的视触融合物体分类网络中,得到待分类物体的分类标签,完成基于视触融合的抓握物体分类。其中,视触融合物体分类网络包括残差网络、带有卷积注意力机制模块的残差网络、卷积注意力机制模块和分类器模块,通过注意力机制提高特征获取能力并充分融合视觉特征和触觉特征。为了验证本发明专利技术方法的准确性和有效性,构建视触融合多模态数据集,并与只包含视觉或者触觉的单模态数据进行对比,可以看出本发明专利技术分类结果准确率高,对于触觉感知和视触融合具有重要的应用价值。

【技术实现步骤摘要】

本专利技术属于视触融合领域,尤其涉及一种基于视触融合的抓握物体分类方法


技术介绍

1、模态是指人或设备接收信息的特定方式或来源,如人接收信息的方式有触觉、味觉、视觉、嗅觉等等,信息传递的方式依据渠道的不同,采用不同的媒介,如音频、视频、文字等,在设备层面,如传感器、雷达、红外以及加速度计等。多模态融合是指综合来自两个或多个模态的信息以进行预测的过程。在预测的过程中,单个模态通常不能包含产生精确预测结果所需的全部有效信息,多模态融合过程结合了来自两个或多个模态的信息,实现信息补充,拓宽输入数据所包含信息的覆盖范围,提升预测结果的精度,提高预测模型的鲁棒性。

2、目前,自主机器人在执行各种任务时,通常都使用多种传感器模态进行输入。这些传感器构成了机器人感知系统的感官系统,形成了机器人的视觉、触觉甚至听觉。机器人的感知系统是在人类感知系统的基础上进行的。有研究表明,人类对物体信息进行识别的时候,会进行感知系统之间的信息共享与融合。对比人类,机器人也可以在一定程度上进行感知模态信息融合,尤其是视觉和触觉,结合效果较好,有实验证明,在面对一个视觉上难以分辨的纹理特征的时候,机器人可以和人类一样,依靠触觉和视觉进行区分。

3、但视觉与触觉感知数据的融合在实现上面临着一系列挑战。首先,视觉和触觉传感器在工作机制、数据格式和测量范围上存在本质差异。例如,视觉传感器通常以rgb格式捕捉三维图像,提供关于物体整体的视觉信息。相比之下,触觉传感器则采集以压力和振动为特征的一维时间序列数据,这些数据通常只能反映物体的局部触觉特性。因此,整合视觉模态数据和触觉模态数据是一项复杂的任务。其次,在视触融合过程中,不同物体的视觉信息和触觉信息对分类任务的贡献度各异。例如,在处理形状和颜色相同但材质不同的物体分类时,触觉信息可能起到更重要的作用,而在处理材质相似但外观不同的物体分类中,视觉信息则显得更为关键。因此,常规的特征融合方法不足以充分融合视触特征。


技术实现思路

1、本专利技术的目的在于解决现有技术中存在的问题,并提供一种基于视触融合的抓握物体分类方法。

2、本专利技术所采用的具体技术方案如下:

3、一种基于视触融合的抓握物体分类方法,步骤如下:

4、s1.获取待分类物体的原始视觉图像数据和原始触觉图像数据,并对原始视觉图像数据和原始触觉图像数据进行数据预处理,对应得到待分类物体的视觉图像数据和触觉图像数据;

5、s2.获取一个经过训练的视触融合物体分类网络,所述视触融合物体分类网络包括一个残差网络、一个带有卷积注意力机制模块的残差网络、一个卷积注意力机制模块和一个分类器模块;将待分类物体的视觉图像数据输入到所述卷积注意力机制残差网络中,对应得到视觉图像数据的视觉特征;将待分类物体的触觉图像数据输入到所述残差网络中,对应得到触觉图像数据的触觉特征;

6、s3.将所述视觉特征和所述触觉特征进行通道拼接,得到拼接后的视触觉特征;将拼接后的视触觉特征输入到所述卷积注意力机制模块,得到待分类物体的融合特征数据;

7、s4.将待分类物体的融合特征数据输入到所述分类器模块,得到待分类物体的分类标签,完成基于视触融合的抓握物体分类。

8、作为优选,所述数据预处理采用数据标准化。

9、作为优选,所述触觉特征和所述视觉特征的获取过程如下:利用去噪方法对触觉图像数据降噪处理,将去噪后的触觉图像数据依次经过一个初始卷积层和一个最大池化层,得到第一触觉图像特征;将第一触觉图像特征输入到所述残差模块中,得到触觉图像数据的触觉特征;将视觉图像数据依次经过一个初始卷积层和一个最大池化层,得到第一视觉图像特征;将第一视觉图像特征输入到所述残差模块中,得到第二视觉图像特征,将第二视觉图像特征输入到所述卷积注意力机制模块,得到视觉图像数据的视觉特征。

10、作为优选,所述残差模块由若干个残差块依次级联而成,在每个所述残差块中,将第一输入数据依次经过第一卷积层、第二卷积层、所述第一卷积层后,得到第一中间特征数据;将输入数据与中间特征数据进行残差连接,得到第一输出数据。

11、作为优选,所述第一卷积层的卷积核大小为1×1;所述第二卷积层的卷积核大小为3×3。

12、作为优选,所述初始卷积层的卷积核大小为7×7;所述最大池化层的窗口大小为3×3。

13、作为优选,在所述卷积注意力机制模块中,将第二输入数据在通道维度上分别进行最大池化和平均池化,将经过最大池化的第二输入数据输入到多层感知机,得到第二最大池化特征;将经过平均池化的第二输入数据输入到多层感知机,得到第二平均池化特征;将第二最大池化特征和第二平均池化特征进行逐元素相加,得到第二池化特征;将第二池化特征经过sigmoid激活函数,得到通道注意力权重;将通道注意力权重与第二输入数据进行逐元素相乘,得到基于通道的注意力特征;将基于通道的注意力特征在空间维度上分别进行最大池化和平均池化,将经过最大池化的所述注意力特征输入到多层感知机,得到第三最大池化特征;将经过平均池化的所述注意力特征输入到多层感知机,得到第三平均池化特征;将第三最大池化特征和第三平均池化特征进行逐元素相加,得到第三池化特征;将第三池化特征经过sigmoid激活函数,得到空间注意力权重;将空间注意力权重与所述注意力特征进行逐元素相乘,得到基于空间的注意力特征。

14、作为优选,所述分类器模块由一个全连接层、relu激活函数和一个输出层依次级联而成。

15、作为优选,所述去噪方法采用小波变换方法。

16、本专利技术相对于现有技术而言,具有以下有益效果:

17、本专利技术针对机械手抓取场景,考虑到在机械手抓取物体过程中,往往只通过视觉信息进行定位和抓取,而忽视了物体的触觉信息,如形状、弹性、质量等,而面对抓取时候的复杂环境,视觉信息可能会出现物体遮挡、光线影响等问题。因此,本专利技术提出一种基于视触融合的抓握物体分类方法,同时考虑视觉信息和触觉信息,利用视触融合物体分类网络进行特征提取,利用卷积注意力机制模块特征融合,最后对待测物体进行分类。同时,考虑到目前视触融合领域数据集的样本量较少,因此本专利技术采用机械手对物体进行抓取,并采用掌形柔性触觉传感器和相机在抓取过程中进行数据采集,构建视触融合多模态数据集。最后在常见分类评价指标上对本专利技术的分类效果进行验证,可见,本专利技术方法相较于其他方法,在各项分类评价指标上均有提升。此外本专利技术操作简单易行,网络模型框架灵活,为多模态融合提供示范和借鉴。

本文档来自技高网...

【技术保护点】

1.一种基于视触融合的抓握物体分类方法,其特征在于,步骤如下:

2.根据权利要求1所述的一种基于视触融合的抓握物体分类方法,其特征在于,所述数据预处理采用数据标准化。

3.根据权利要求1所述的一种基于视触融合的抓握物体分类方法,其特征在于,所述触觉特征和所述视觉特征的获取过程如下:利用去噪方法对触觉图像数据降噪处理,将去噪后的触觉图像数据依次经过一个初始卷积层和一个最大池化层,得到第一触觉图像特征;将第一触觉图像特征输入到所述残差模块中,得到触觉图像数据的触觉特征;将视觉图像数据依次经过一个初始卷积层和一个最大池化层,得到第一视觉图像特征;将第一视觉图像特征输入到所述残差模块中,得到第二视觉图像特征,将第二视觉图像特征输入到所述卷积注意力机制模块,得到视觉图像数据的视觉特征。

4.根据权利要求3所述的一种基于视触融合的抓握物体分类方法,其特征在于,所述残差模块由若干个残差块依次级联而成,在每个所述残差块中,将第一输入数据依次经过第一卷积层、第二卷积层、所述第一卷积层后,得到第一中间特征数据;将输入数据与中间特征数据进行残差连接,得到第一输出数据

5.根据权利要求4所述的一种基于视触融合的抓握物体分类方法,其特征在于,所述第一卷积层的卷积核大小为1×1;所述第二卷积层的卷积核大小为3×3。

6.根据权利要求3所述的一种基于视触融合的抓握物体分类方法,其特征在于,所述初始卷积层的卷积核大小为7×7;所述最大池化层的窗口大小为3×3。

7.根据权利要求1所述的一种基于视触融合的抓握物体分类方法,其特征在于,在所述卷积注意力机制模块中,将第二输入数据在通道维度上分别进行最大池化和平均池化,将经过最大池化的第二输入数据输入到多层感知机,得到第二最大池化特征;将经过平均池化的第二输入数据输入到多层感知机,得到第二平均池化特征;将第二最大池化特征和第二平均池化特征进行逐元素相加,得到第二池化特征;将第二池化特征经过sigmoid激活函数,得到通道注意力权重;将通道注意力权重与第二输入数据进行逐元素相乘,得到基于通道的注意力特征;将基于通道的注意力特征在空间维度上分别进行最大池化和平均池化,将经过最大池化的所述注意力特征输入到多层感知机,得到第三最大池化特征;将经过平均池化的所述注意力特征输入到多层感知机,得到第三平均池化特征;将第三最大池化特征和第三平均池化特征进行逐元素相加,得到第三池化特征;将第三池化特征经过sigmoid激活函数,得到空间注意力权重;将空间注意力权重与所述注意力特征进行逐元素相乘,得到基于空间的注意力特征。

8.根据权利要求1所述的一种基于视触融合的抓握物体分类方法,其特征在于,所述分类器模块由一个全连接层、ReLU激活函数和一个输出层依次级联而成。

9.根据权利要求3所述的一种基于视触融合的抓握物体分类方法,其特征在于,所述去噪方法采用小波变换方法。

...

【技术特征摘要】

1.一种基于视触融合的抓握物体分类方法,其特征在于,步骤如下:

2.根据权利要求1所述的一种基于视触融合的抓握物体分类方法,其特征在于,所述数据预处理采用数据标准化。

3.根据权利要求1所述的一种基于视触融合的抓握物体分类方法,其特征在于,所述触觉特征和所述视觉特征的获取过程如下:利用去噪方法对触觉图像数据降噪处理,将去噪后的触觉图像数据依次经过一个初始卷积层和一个最大池化层,得到第一触觉图像特征;将第一触觉图像特征输入到所述残差模块中,得到触觉图像数据的触觉特征;将视觉图像数据依次经过一个初始卷积层和一个最大池化层,得到第一视觉图像特征;将第一视觉图像特征输入到所述残差模块中,得到第二视觉图像特征,将第二视觉图像特征输入到所述卷积注意力机制模块,得到视觉图像数据的视觉特征。

4.根据权利要求3所述的一种基于视触融合的抓握物体分类方法,其特征在于,所述残差模块由若干个残差块依次级联而成,在每个所述残差块中,将第一输入数据依次经过第一卷积层、第二卷积层、所述第一卷积层后,得到第一中间特征数据;将输入数据与中间特征数据进行残差连接,得到第一输出数据。

5.根据权利要求4所述的一种基于视触融合的抓握物体分类方法,其特征在于,所述第一卷积层的卷积核大小为1×1;所述第二卷积层的卷积核大小为3×3。

6.根据权利要求3所述的一种基于视触融合的抓握物体分类方法,其特征在于,所述初始卷...

【专利技术属性】
技术研发人员:闫凯波吕汇李焕焕傅裕康夏庆华
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1