平行多通道卷积神经网络、构建方法及图像特征提取方法技术

技术编号:18256974 阅读:58 留言:0更新日期:2018-06-20 08:35
本发明专利技术公开了一种平行多通道卷积神经网络、构建方法及图像特征提取方法,涉及机器学习技术领域。由于Kinect等深度传感器的广泛使用,多模态图像的获取将会更加便利。因此,基于多模态图像信息的特征提取研究具有十分重要的意义。本发明专利技术首先针对多模态图像的各个通道建立子模态卷积神经网络模型,提取各个模态深度特征向量。为了获得具有统一性质的多模态图像特征,各模态子网络在特定的全连接层建立权重连接。在多层子网络的全连接部分,多模态深度特征向量根据权重配比融合成包含各模态信息的融合特征向量,再经多层网络的训练得到维度更低、表现力更好的特征表示。根据本发明专利技术得到的特征表示可以用于识别、分类等相关领域。

Parallel multi-channel convolution neural network, construction method and image feature extraction method

The invention discloses a parallel multi-channel convolution neural network, a construction method and an image feature extraction method, which relate to the machine learning technology field. Because of the wide use of Kinect and other depth sensors, multi-modal image acquisition will be more convenient. Therefore, the research of feature extraction based on multi-modal image information is of great significance. Firstly, the sub modal convolution neural network model is established for each channel of the multi-modal image, and each modal depth feature vector is extracted. In order to obtain multi-modal image features with uniform properties, each mode sub network establishes weight connections at specific fully connected layers. In the full connection part of the multi-layer subnetwork, the multi-modal depth feature vectors are fused into the fusion feature vectors containing each modal information according to the weight ratio, and then the multi-layer network is trained to get the lower dimension and better expressive features. The characteristic expression obtained according to the invention can be used for identification, classification and other related fields.

【技术实现步骤摘要】
平行多通道卷积神经网络、构建方法及图像特征提取方法
本专利技术属于机器学习领域,更具体地,涉及一种平行多通道卷积神经网络及其构建方法以及基于平行多通道卷积神经网络的多模态图像特征提取方法。
技术介绍
计算机视觉和图像处理领域中,我们通过测量可以得到识别或分类对象的原始表征信息。这种原始表征信息可以通过直接测量得到,所以被称为原始特征,如数字图像中每点的灰度值。原始特征易于被人的直觉所感知,但不常用于模式识别中。其原因主要包括三点:一是原始特征不能反映对象的本质特征;二是原始特征有时难以定量描述,不利于机器判别;三是高维的原始特征有大量的冗余信息,且对于有限的训练样本而言,高维特征在原始特征空间中分布十分稀疏。这三个原因导致基于原始特征设计的分类器计算量庞大且精度过低。针对原始特征的特性与不足,我们通常需要对测量得到的原始特征进行分析、选择和变换处理,组成更有效的特征表示。针对原始数据集进行特征提取的方案设计成为计算机视觉领域中十分重要的问题。在早期的识别、分类等领域的计算机视觉方案中,特征提取主要基于彩色图像进行。彩色图像通过单摄像机采集得到,通过一系列的图像处理技术得到最终的特征表示。但是基于RGB彩色图像提取的特征表示在真实应用中,普遍受到环境光照、背景复杂度等因素的制约,使得设计相关分类器的难度提高,精度也无法得到保证。近年来,随着Kinect等深度摄像机的出现,为上述问题提供了新的解决思路。Kinect传感器能够在获取纹理信息的同时捕捉得到场景的深度信息,即可获取三维空间信息。获取得到的场景深度信息以深度图像的形式给出。结合深度信息的特征提取方案可以显著降低光照和复杂背景的影响,极大提高了在检索、识别和分类等复杂任务中的鲁棒性和准确性。因此,利用RGB-D等多模态图像信息的特征提取方案已成为一个新的研究方向。利用多模态信息的关键在于如何将各形态信息有效的结合在一起,从而形成一个统一的特征表达形式。目前,对于多模态信息的利用主要是通过对各个图像形态提取传统的手工特征,如尺度不变特征变换(Scale-invariantfeaturetransform,SIFT)、方向梯度直方图(HistogramofOrientedGradient,HOG)等。最后,将这些经过单独提取的多模态特征作为分类器的训练输入。这种方案在多模态的处理上较为简单,对于多模态图像特征的提取过程相对独立,无法获得真正有效的融合特征表示。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种RGB-D多模态图像特征提取方法及系统,由此解决目前对于多模态信息的利用主要是通过对各个图像形态提取传统的手工特征而存在的无法获得真正有效的融合特征表示的技术问题。为实现上述目的,按照本专利技术的一个方面,提供了一种平行多通道卷积神经网络的构建方法,包括:对于预设多模态数据库中的各模态图像,构建与各模态图像对应的子模态卷积神经网络模型,并通过各子模态卷积神经网络模型提取各模态图像对应的深度特征向量;在每个子模态卷积神经网络模型的目标全连接层,将各子模态卷积神经网络模型所提取的深度特征向量进行连接并分配连接权重系数得到包含各模态图像信息的融合特征向量,以构建初始平行多通道卷积神经网络模型;将训练数据集送入所述初始平行多通道卷积神经网络模型中,对所述初始平行多通道卷积神经网络模型中的训练参数进行初次优化训练;将验证数据集送入初次优化训练后的平行多通道卷积神经网络模型中进行效果评估,并进行最终优化得到目标平行多通道卷积神经网络模型,其中,所述预设多模态数据库中包括所述训练数据集与所述验证数据集。优选地,在所述将训练数据集送入所述初始平行多通道卷积神经网络模型中,对所述初始平行多通道卷积神经网络模型中的训练参数进行初次优化训练之前,所述方法还包括:将所述预设多模态数据库中的若干个训练数据送入到栈式自编码网络中,预训练得到所述初始平行多通道卷积神经网络模型的全连接层的每一层网络参数的初始值。优选地,所述预训练得到所述初始平行多通道卷积神经网络模型的全连接层的每一层网络参数的初始值,包括:第i个稀疏自编码器的输入层参数为第i-1个稀疏自编码器的隐含层特征向量,训练得到所述第i个稀疏自编码器的隐含层特征向量,并确定所述第i个稀疏自编码器的隐含层参数,其中,稀疏自编码器的个数与所述初始平行多通道卷积神经网络模型的全连接层包含的隐含层的个数有关,且第一个稀疏自编码器的输入层参数为各模态图像的特征向量;将各稀疏自编码器的隐含层参数作为所述初始平行多通道卷积神经网络模型的全连接层的每一层网络参数的初始值。优选地,对所述目标平行多通道卷积神经网络模型的训练过程包括前向传播和反向误差传播,其中,在所述反向误差传播过程中的,由确定所述目标平行多通道卷积神经网络模型中第l层的特征图,其中,zl表示激活函数f在第l层的输入值,wl表示第l层的核参数矩阵,bl表示第l层的偏置项,下标j表示第j个子模态卷积神经网络模型,n表示子模态卷积神经网络模型的个数,上标l表示各子模态卷积神经网络模型连接的全连接层部分,上标l-1表示子模态卷积神经网络模型的最后一层,Pj表示第j个子模态卷积神经网络模型的连接权重系数矩阵。优选地,Pj=(IjO),其中,|j|表示第j个子模态卷积神经网络模型在目标连接层中输入向量的维度,I|j|表示|j|维单位矩阵。优选地,由得到所有子模态卷积神经网络模型在目标连接层部分的反向误差,其中,表示第l层的传播误差δl中属于第j个子模态卷积神经网络模型中的部分。按照本专利技术的另一方面,提供了一种基于上述任意一项所述的平行多通道卷积神经网络的构建方法构建的平行多通道卷积神经网络。按照本专利技术的另一方面,提供了一种基于上述平行多通道卷积神经网络的多模态图像特征提取方法,包括:将待提取多模态图像送入所述平行多通道卷积神经网络模型,提取所述平行多通道卷积神经网络模型的目标层的多模态图像特征。总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,能够取得下列有益效果:(1)针对各个模态图像集建立多个子模态卷积神经网络模型,对于各个子网络的池化层输出特征,在特定的全连接部分分配不同的权重,实现对各个多通道子网络的平行连接和权重分配,在网络训练之前,通过稀疏自编码网络对模型中各个层参数进行预训练,从而降低最后网络训练的难度,提升最后特征提取的效果。(2)本专利技术通过对平行多通道卷积神经网络的构建和中间层权重配比方式实现对多模态图像信息的融合和深度利用,有效提升最后多模态特征表示的效果。附图说明图1为本专利技术的一种平行多通道卷积神经网络的构建方法的流程示意图;图2为本专利技术中全连接层部分预训练模型图;图3为本专利技术提出的基于平行多通道卷积神经网络的RGB-D多模态图像特征提取模型;图4为本专利技术中RGB-D多模态图像示意图,其中,图4(a)为原始的RGB-D图像对,图4(b)为经过处理后的三通道多模态深度图;图5为现有RGB-D多模态图像提取方式示意图,其中,图5(a)为基于RGB彩色图的卷积神经网络模型,图5(b)为基于深度图的卷积神经网络模型,图5(c)为RGB-D多模态图像的的概率融合模型。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,本文档来自技高网
...
平行多通道卷积神经网络、构建方法及图像特征提取方法

【技术保护点】
1.一种平行多通道卷积神经网络的构建方法,其特征在于,包括:对于预设多模态数据库中的各模态图像,构建与各模态图像对应的子模态卷积神经网络模型,并通过各子模态卷积神经网络模型提取各模态图像对应的深度特征向量;在每个子模态卷积神经网络模型的目标全连接层,将各子模态卷积神经网络模型所提取的深度特征向量进行连接并分配连接权重系数得到包含各模态图像信息的融合特征向量,以构建初始平行多通道卷积神经网络模型;将训练数据集送入所述初始平行多通道卷积神经网络模型中,对所述初始平行多通道卷积神经网络模型中的训练参数进行初次优化训练;将验证数据集送入初次优化训练后的平行多通道卷积神经网络模型中进行效果评估,并进行最终优化得到目标平行多通道卷积神经网络模型,其中,所述预设多模态数据库中包括所述训练数据集与所述验证数据集。

【技术特征摘要】
1.一种平行多通道卷积神经网络的构建方法,其特征在于,包括:对于预设多模态数据库中的各模态图像,构建与各模态图像对应的子模态卷积神经网络模型,并通过各子模态卷积神经网络模型提取各模态图像对应的深度特征向量;在每个子模态卷积神经网络模型的目标全连接层,将各子模态卷积神经网络模型所提取的深度特征向量进行连接并分配连接权重系数得到包含各模态图像信息的融合特征向量,以构建初始平行多通道卷积神经网络模型;将训练数据集送入所述初始平行多通道卷积神经网络模型中,对所述初始平行多通道卷积神经网络模型中的训练参数进行初次优化训练;将验证数据集送入初次优化训练后的平行多通道卷积神经网络模型中进行效果评估,并进行最终优化得到目标平行多通道卷积神经网络模型,其中,所述预设多模态数据库中包括所述训练数据集与所述验证数据集。2.根据权利要求1所述的方法,其特征在于,在所述将训练数据集送入所述初始平行多通道卷积神经网络模型中,对所述初始平行多通道卷积神经网络模型中的训练参数进行初次优化训练之前,所述方法还包括:将所述预设多模态数据库中的若干个训练数据送入到栈式自编码网络中,预训练得到所述初始平行多通道卷积神经网络模型的全连接层的每一层网络参数的初始值。3.根据权利要求2所述的方法,其特征在于,所述预训练得到所述初始平行多通道卷积神经网络模型的全连接层的每一层网络参数的初始值,包括:第i个稀疏自编码器的输入层参数为第i-1个稀疏自编码器的隐含层特征向量,训练得到所述第i个稀疏自编码器的隐含层特征向量,并确定所述第i个稀疏自编码器的隐含层参数,其中,稀疏自编码器的个数与所述初始平行多通道卷积神经网...

【专利技术属性】
技术研发人员:喻莉谢存煌
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1