当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于多模态融合深度学习的物体材质分类方法技术

技术编号:16780110 阅读:77 留言:0更新日期:2017-12-13 00:12
本发明专利技术涉及一种基于多模态融合深度学习的物体材质分类方法,属于计算机视觉、人工智能和材质分类技术领域。本发明专利技术是基于多模态融合深度学习的物体材质分类方法‑‑一种基于多尺度局部感受野的超限学习机的多模态融合方法。本发明专利技术将物体材质的不同模态的感知信息(包括视觉图像、触觉加速度信号和触觉声音信号)进行融合,最终实现物体材质的正确分类。该方法不仅可以利用多尺度局部感受野对现实复杂材质进行高代表性特征提取,而且可以有效融合各个模态信息,实现模态之间信息互补。利用本发明专利技术的方法可以提高复杂材质分类的鲁棒性和准确性,使之有更大的适用性和通用性。

An object material classification method based on multimodal fusion depth learning

The invention relates to an object material classification method based on multi-modal fusion and deep learning, which belongs to the field of computer vision, artificial intelligence and material classification technology. The present invention is a fusion method of material classification method of multi modality fusion deep learning a multi modality based on multi-scale local receptive field based on machine learning overrun. The invention integrates different modes of perception information, including visual image, tactile acceleration signal and tactile voice signal, and finally realizes the correct classification of object material. This method not only utilizes multi-scale local receptive field to extract high representative features of real complex materials, but also effectively integrates all modal information, and realizes information complementarity between modes. The method of this invention can improve the robustness and accuracy of the classification of complex materials, and make it more applicable and versatile.

【技术实现步骤摘要】
一种基于多模态融合深度学习的物体材质分类方法
本专利技术涉及一种基于多模态融合深度学习的物体材质分类方法,属于计算机视觉、人工智能和材质分类

技术介绍
大千世界,材质种类繁多,可以分为塑料、金属、陶瓷,玻璃、木材、纺织品、石材、纸、橡胶和泡沫等种类。最近,物体材质分类已经极大地引起社会环保,工业界以及学术界的关注。比如材质的分类可以有效的用于材料的循环利用;包装材料的四大支柱:纸,塑料,金属和玻璃,在不同的市场需求下需要不能材质的包装。对于需要长距离运输但对运输质量无特殊要求,一般选用纸,纸板以及包装箱纸板;对于食品包装应该符合卫生标定,糕点等直接入口食品的包装应使用纸盒纸板,食盐等防光防潮的使用罐装,快餐盒的制造可以使用天然植物纤维;合理使用装饰材料是室内装饰成功的关键。基于上述问题的需求,研究一套能够自动对物体材质分类的方法就显得十分必要。物体材质分类主流的方法是使用包含丰富信息的视觉图像,但是对于外观极其相似的两个物体仅用视觉图像是不能够区分的。假设有两个物体:一个红色粗糙的纸和一个红色的塑料箔,视觉图像对这两个物体具有较小的区分能力。但是对于上述假设,人脑会本能的将同一物体的不同模态感知特征进行融合,从而达到对物体材质分类的目的。受此启发,要使计算机实现对物体材质的自动分类,可以同时使用物体不同模态信息来进行物体材质分类。当前也有公开技术用于物体材质分类,如中国专利申请CN105005787A—一种基于灵巧手触觉信息的联合稀疏编码的材质分类。此专利技术对材质分类仅使用了触觉序列,并未将材质的多种模态信息结合起来。观察到仅使用视觉图像对物体材质分类不能鲁棒地捕获材质特征,如硬度或粗糙度。可以假设当刚性工具拖动或移动到不同物体的表面上时,工具将产生不同频率的振动和声音,因此可以使用与视觉互补的触觉信息来进行物体材质的分类。然而,如何有效地将视觉模态与触觉模态结合仍然是一个具有挑战性的问题。
技术实现思路
本专利技术目的是提出一种基于多模态融合深度学习的物体材质分类方法,在基于多尺度局部感受野的超限学习机方法的基础上实现多模态信息融合的物体材质分类,以提高分类的鲁棒性和准确性,并有效地融合物体材质的多种模态信息进行材质分类。本专利技术提出的基于多模态融合深度学习的物体材质分类方法,包括以下步骤:(1)设训练样本个数为N1,训练样本材质种类为M1个,记每类材质训练样本的标签为其中1≤M1≤N1,分别采集所有N1个训练样本的视觉图像I1、触觉加速度A1和触觉声音S1,建立一个包括I1、A1和S1的数据集D1,I1的图像大小为320×480;设待分类物体个数为N2,待分类物体材质的种类为M2个,记每类待分类物体的标签为其中1≤M2≤M1,分别采集所有N2个待分类物体的视觉图像I2、触觉加速度A2和触觉声音S2,建立一个包括I2、A2和S2的数据集D2,I2的图像大小为320×480;(2)对上述数据集D1和数据集D2视觉图像进行视觉图像预处理、触觉加速度信号进行触觉加速度预处理和触觉声音信号进行触觉声音预处理,分别得到视觉图像、触觉加速度频谱图和触觉声音频谱图,包括以下步骤:(2-1)利用降采样方法,对图像大小为320×480的图像I1和图像I2进行降采样,得到I1和I2的大小为32×32×3的视觉图像;(2-2)利用短时傅里叶变换方法,分别将触觉加速度A1和触觉加速度A2转换到频域,短时傅里叶变换中的汉明窗的窗口长度为500,窗口偏移量为100,采样频率为10kHz,分别得到触觉加速度A1和触觉加速度A2的频谱图,从频谱图中选择前500个低频信道作为频谱图像,对该频谱图像进行降采样,得到A1和A2的大小为32×32×3的触觉加速度频谱图像;(2-3)利用短时傅里叶变换方法,分别将触觉声音S1和触觉声音S2转换到频域,短时傅里叶变换中的汉明窗的窗口长度为500,窗口偏移量为100,采样频率为10kHz,分别得到触觉声音S1和触觉声音S2的频谱图,从频谱图中选择前500个低频信道作为频谱图像,对该频谱图像进行降采样,得到S1和S2的大小为32×32×3的声音频谱图像;(3)通过多尺度特征映射,获得视觉模态、触觉加速度模态和触觉声音模态的卷积特征,包括以下步骤:(3-1)将上述步骤(2)得到的I1和I2的大小为32×32×3的视觉图像、A1和A2的大小为32×32×3的触觉加速度频谱图像和S1和S2的大小为32×32×3的声音频谱图像输入到神经网络第一层,即输入层,输入图像的大小为d×d,该神经网络中的局部感受野具有Ψ个尺度通道,Ψ个尺度通道的大小分别为r1,r2,…,rΨ,每个尺度通道产生K个不同的输入权重,从而随机生成Ψ×K个特征图,将神经网络随机产生的第Φ个尺度通道的视觉图像、触觉加速度频谱图和声音频谱图的初始权重记为和和分别由和逐列组成,其中,上角标I表示训练样本和待分类物体的视觉模态,上角标A表示训练样本和待分类物体的触觉加速度模态,S表示训练样本和待分类物体的触觉声音模态,表示初始权重,表示产生第ζ个特征图的初始权重,1≤Φ≤Ψ,1≤ζ≤K,第Φ个尺度局部感受野的大小为rΦ×rΦ,进而得到第Φ个尺度通道的所有K个特征图的大小为(d-rΦ+1)×(d-rΦ+1);(3-2)使用奇异值分解方法,对上述第Φ个尺度通道的初始权重矩阵进行正交化处理,得到正交矩阵和和中的每一列和分别为和的正交基,第Φ个尺度通道的第ζ个特征图的输入权重和分别为由和形成的方阵;利用下式,分别计算视觉模态、触觉加速度模态和触觉声音模态的第Φ个尺度通道的第ζ特征图中的节点(i,j)的卷积特征:Φ=1,2,3...,Ψ,i,j=1,...,(d-rΦ+1),ζ=1,2,3...,K,和分别表示视觉模态、触觉加速度模态和触觉声音模态的第Φ个尺度通道中第ζ特征图的节点(i,j)的卷积特征,x是与节点(i,j)对应的矩阵;(4)对上述视觉模态、触觉加速度模态和触觉声音模态的卷积特征进行多尺度平方根池化,池化尺度有Ψ个尺度,Ψ个尺度的大小分别为e1,e2,…,eΨ,第Φ个尺度下池化大小eΦ表示池化中心和边缘之间的距离,池化图和特征图大小相同,为(d-rΦ+1)×(d-rΦ+1),根据上述步骤(3)得到的卷积特征,利用下式计算池化特征:p,q=1,...,(d-rΦ+1),若节点(i,j)不在(d-rΦ+1),则和均为零,Φ=1,2,3...,Ψ,ζ=1,2,3...,K,其中,和分别表示视觉模态、触觉加速度模态和触觉声音模态的第Φ个尺度通道中第ζ个池化图的节点(p,q)的池化特征;(5)根据上述池化特征,得到三个模态的全连接特征向量,包括以下步骤:(5-1)将步骤(4)的池化特征中的第ω个训练样本的视觉图像模态、触觉加速度模态和触觉声音模态的池化图的所有池化特征,分别连接成一个行向量和其中1≤ω≤N1;(5-2)遍历N1个训练样本,重复上述步骤(5-1),分别得到N1训练样本的视觉图像模态、触觉加速度模态和触觉声音模态的行向量组合,记为:其中,表示视觉模态的组合特征向量矩阵,表示触觉加速度模态特征矩阵,表示触觉声音模态的特征向量矩阵;(6)三个模态的全连接特征向量,进行多模态融合,得到多模态融合后的混合矩阵,包括以下步骤:(6-1)将上述本文档来自技高网
...
一种基于多模态融合深度学习的物体材质分类方法

【技术保护点】
一种基于多模态融合深度学习的物体材质分类方法,其特征在于该方法包括以下步骤:(1)设训练样本个数为N1,训练样本材质种类为M1个,记每类材质训练样本的标签为

【技术特征摘要】
1.一种基于多模态融合深度学习的物体材质分类方法,其特征在于该方法包括以下步骤:(1)设训练样本个数为N1,训练样本材质种类为M1个,记每类材质训练样本的标签为其中1≤M1≤N1,分别采集所有N1个训练样本的视觉图像I1、触觉加速度A1和触觉声音S1,建立一个包括I1、A1和S1的数据集D1,I1的图像大小为320×480;设待分类物体个数为N2,待分类物体材质的种类为M2个,记每类待分类物体的标签为其中1≤M2≤M1,分别采集所有N2个待分类物体的视觉图像I2、触觉加速度A2和触觉声音S2,建立一个包括I2、A2和S2的数据集D2,I2的图像大小为320×480;(2)对上述数据集D1和数据集D2视觉图像进行视觉图像预处理、触觉加速度信号进行触觉加速度预处理和触觉声音信号进行触觉声音预处理,分别得到视觉图像、触觉加速度频谱图和触觉声音频谱图,包括以下步骤:(2-1)利用降采样方法,对图像大小为320×480的图像I1和图像I2进行降采样,得到I1和I2的大小为32×32×3的视觉图像;(2-2)利用短时傅里叶变换方法,分别将触觉加速度A1和触觉加速度A2转换到频域,短时傅里叶变换中的汉明窗的窗口长度为500,窗口偏移量为100,采样频率为10kHz,分别得到触觉加速度A1和触觉加速度A2的频谱图,从频谱图中选择前500个低频信道作为频谱图像,对该频谱图像进行降采样,得到A1和A2的大小为32×32×3的触觉加速度频谱图像;(2-3)利用短时傅里叶变换方法,分别将触觉声音S1和触觉声音S2转换到频域,短时傅里叶变换中的汉明窗的窗口长度为500,窗口偏移量为100,采样频率为10kHz,分别得到触觉声音S1和触觉声音S2的频谱图,从频谱图中选择前500个低频信道作为频谱图像,对该频谱图像进行降采样,得到S1和S2的大小为32×32×3的声音频谱图像;(3)通过多尺度特征映射,获得视觉模态、触觉加速度模态和触觉声音模态的卷积特征,包括以下步骤:(3-1)将上述步骤(2)得到的I1和I2的大小为32×32×3的视觉图像、A1和A2的大小为32×32×3的触觉加速度频谱图像和S1和S2的大小为32×32×3的声音频谱图像输入到神经网络第一层,即输入层,输入图像的大小为d×d,该神经网络中的局部感受野具有Ψ个尺度通道,Ψ个尺度通道的大小分别为r1,r2,…,rΨ,每个尺度通道产生K个不同的输入权重,从而随机生成Ψ×K个特征图,将神经网络随机产生的第Φ个尺度通道的视觉图像、触觉加速度频谱图和声音频谱图的初始权重记为和和分别由和逐列组成,其中,上角标I表示训练样本和待分类物体的视觉模态,上角标A表示训练样本和待分类物体的触觉加速度模态,S表示训练样本和待分类物体的触觉声音模态,表示初始权重,表示产生第ζ个特征图的初始权重,1≤Φ≤Ψ,1≤ζ≤K,第Φ个尺度局部感受野的大小为rΦ×rΦ,进而得到第Φ个尺度通道的所有K个特征图的大小为(d-rΦ+1)×(d-rΦ+1);(3-2)使用奇异值分解方法,对上述第Φ个尺度通道的初始权重矩阵进行正交化处理,得到正交矩阵和和中的每一列和分别为和的正交基,第Φ个尺度通道的第ζ个特征图的输入权重和分别为由和形成的方阵;利用下式,分别计算视觉模态、触觉加速度模态和触觉声音模态的第Φ个尺度通道的第ζ特征图中的节点(i,j)的卷积特征:Φ=1,2,3...,Ψ,i,j=1,...,(d-rΦ+1),ζ=1,2,3...,K,和分别表示视觉模态、触觉加速度模态和触觉声音模态的第Φ个尺度通道中第ζ特征图的节点(i,j)的卷积特征,x是与节点(i,j)对应的矩阵;(4)对上述视觉模态、触觉加速度模态和触觉声音模态的卷积特征进行多尺度平方根池化,池化尺度有Ψ个尺度,Ψ个尺度的大小分别为e1,e2,…,eΨ,第Φ个尺度下池化大小eΦ表示池化中心和边缘之间的距离,池化图和特征图大小相同,为(d-rΦ+1)×(d-rΦ+1),根据上述步骤(3)得到的卷积特征,利用下式计算池化特征:

【专利技术属性】
技术研发人员:刘华平方静刘晓楠孙富春
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1