一种基于三维卷积神经网络的图像特征提取与训练方法技术

技术编号:19277549 阅读:65 留言:0更新日期:2018-10-30 18:04
本发明专利技术一种基于三维卷积神经网络的图像特征提取与训练方法,包括如下步骤:步骤1,将进行特征提交的输入图像进行尺寸的归一化处理;步骤2,构建包括卷积层、激活层、池化层、全连接层和输出层的三维卷积神经网络;步骤3,对构建的三维卷积神经网络进行训练后得到优化的三维卷积神经网络,进行对输入图像进行特征提取,完成输入图像的分类识别。以三维卷积神经网络进行三维图像的特征提取和识别,三维卷积神经网络直接在三维的图像上进行卷积,提取图像的三维空间特征,更能有效表达三维图像的特征模式,从而达到对图像分类识别的目的。

A method of image feature extraction and training based on 3D convolution neural network

The invention provides an image feature extraction and training method based on three-dimensional convolution neural network, which comprises the following steps: step 1, normalizing the input image of feature submission; step 2, constructing a three-dimensional convolution neural network including convolution layer, activation layer, pooling layer, full connection layer and output layer; Step 3, after training the three-dimensional convolution neural network, the optimized three-dimensional convolution neural network is obtained, and the input image is extracted to complete the classification and recognition of the input image. Three-dimensional convolution neural network is used to extract and recognize the features of three-dimensional images. The three-dimensional convolution neural network is directly used to convolute the three-dimensional images and extract the three-dimensional spatial features of the images. It can effectively express the feature patterns of three-dimensional images, thus achieving the purpose of image classification and recognition.

【技术实现步骤摘要】
一种基于三维卷积神经网络的图像特征提取与训练方法
本专利技术属于图像识别与深度学习领域,涉及三维图像特征提取与识别,具体为一种基于三维卷积神经网络的图像特征提取与训练方法。
技术介绍
图像识别是计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术。现已应用到工业安防、生活、教育等各个方面。图像识别是人工智能的一个重要领域,为了教会计算机像人类一样进行图像识别,人们提出了很多的图像识别方法。传统的识别过程包括图像预处理、图像分割、特征提取和判断匹配。因此,在每一中间步骤都有大量不同的算法,并且每一中间步骤都影响着最后的识别率的高低。近年来,深度学习新理论的出现,加上计算机硬件的巨大进步以及大数据的产生,深度学习在图像、语音识别等领域取得了巨大的进步。深度学习源于人工神经网络的研究,属于机器学习中的一个领域,它的“深”在于具有更多的层次,从而能表达更深的特征。深度学习以更加接近于人脑的机制、通过多层复杂的非线性模型来对数据进行表达和抽象。使用深度学习进行图像识别的优点不仅在于其越来越接近于人类的识别准确率,而且不需要图像预处理、图像分割等预处理或中间过程,即直接输入原始的图像,把深度学习算法当作一个黑箱子,一次性的完成某些预处理、特征提取及识别过程。然而目前的深度学习算模型大多是针对二维图像的,如二维的卷积神经网络(ConvolutionalNeuralNetwork,CNN)。然而现实世界的图像并不总是二维的,如建筑模型图像、3D打印模型、人体的大脑和肺部等图像均是一个三维的扫描图像。针对于这些三维图像,目前的解决方式是将某一维的所有图像进行平均,从而得到二维的图像,然后可采用二维的深度学习算法进行识别,这种方法将某一维度的所有图像进行了平均,因此损失了大量的信息,并不能有效地提取出所有的特征。另外一种方法是将某一维看作是一个二维卷积神经网络的通道,即图像在这一维有多少个切片,那么就有多少个通道,然后同样采用二维的卷积神经网络算法进行识别,这种方式虽然看起来没有损失信息,但将三维的图像变成了一个个孤立的二维图像,从二维图像中提取特征,提取的是二维的特征,没有考虑特征在第三维上的关联性,并且计算量大,因此也不符合三维图像的本质,识别过程中的信息损失多,识别度低。
技术实现思路
针对现有技术中存在的问题,本专利技术提供一种基于三维卷积神经网络的图像特征提取与训练方法,能够有效提取图像的三维特征和模式,并且比例均衡化的样本输入机制增强了模型对各种类别的表达能力,改进的损失函数提高了神经网络的识别率。本专利技术是通过以下技术方案来实现:一种基于三维卷积神经网络的图像特征提取与训练方法,包括如下步骤,步骤1,将进行特征提交的输入图像进行尺寸的归一化处理;步骤2,构建包括卷积层、激活层、池化层、全连接层和输出层的三维卷积神经网络;步骤2.1,通过将输入图像中若干张连续的图像堆叠成为一个立体图像的立方体,然后在这个立方体里通过如下三维卷积层对连续的多张图像进行加权求和的卷积操作,以提取图像的初级特征,得到初级特征图;其中,O是第j层图像对应的第n个特征块的(x,y,z)处的输出,σ为激活函数,是i层图像的m个特征块和是j层图像的n个特征块之间的权重,Iim(x+p,y+q,z+r)是第i层图像到j层图像的输入,bjn为共享的偏置,p,q,r为x,y,z三个方向的采样步长;i和j为相邻两层的序号;步骤2.2,通过激活层对初级特征图添加非线性特征;步骤2.3,通过池化层来降低添加非线性特征的初级特征图的维度大小;步骤2.4,通过全连接层对池化层处理过的初级特征图提取高级特征,得到高级特征图;步骤2.5,通过输出层中的Softmax分类器将高级特征转化为激活概率,得到三维卷积神经网络的输出,完成三维卷积神经网络的构建;步骤3,对构建的三维卷积神经网络进行训练后得到优化的三维卷积神经网络,进行对输入图像进行特征提取,完成输入图像的分类识别。优选的,对输入图像依次进行步骤2.1到2.3的多次堆叠,执行多次堆叠时,卷积层的核心数逐次增加。优选的,步骤2.2中,通过在激活层中采用如下的ReLU激活函数对初级特征图添加非线性特征;f(x)=max(0,x)其中,x为函数的输入,f(x)为函数输出;将输入大于0的特征保持,小于0的特征忽略。优选的,步骤2.3中,采用如下最大池化的方法来来降低特征的维度大小;其中,I为池化层的输入,O为池化输出,p,q,r为x,y,z三个方向的采样步长,S1,S2,S3为池化的范围,i,j,k在此范围内变动。优选的,步骤2.5中,所述的Softmax分类器如下,其中,xi表示向量x中的第i个元素,这个元素的Softmax值就是Si。优选的,步骤3中,在训练三维卷积神经网络模型的时候,采取有组织的学习方法,即一次输入一小批量样本进行训练时,这一小批样本在选取时遵循以下规则:对每类样本按样本数量的比例进行采样,保证样本数较小的类别每次都能参与训练。优选的,在进行模型训练的过程中,利用如下的损失函数来估计梯度,实现三维卷积神经网络的优化;其中,L为损失函数,n是测试集中样本数量,是sofmax层输出的对样本i预测概率,yi是待分类数据的实际标签;m为小批量样本数,小批量样本为{x(1),x(2),…,x(m)},g为梯度的估计值,θ为需要学习的参数集;‖‖1为L1正则化,λ为正则化系数,决定着W的稀疏程度,W为最后一层池化层到全连接层的权值。与现有技术相比,本专利技术具有以下有益的技术效果:本专利技术以三维卷积神经网络进行三维图像的特征提取和识别,三维卷积神经网络直接在三维的图像上进行卷积,提取图像的三维空间特征,更能有效表达三维图像的特征模式。首先将输入图像的尺寸进行归一化,接下来设计一个三维卷积神经网络模型,通过将立体图像中若干张连续的图像堆叠成为一个立方体,然后在这个立方体里进行加权求和的卷积操作以提取图像的初级特征,再将输出的特征图谱依次经过激活层、池化层和全连接层得到更为高级的特征,最后将这些特征通过Softmax分类器来对图像类别分配概率,从而达到对图像分类识别的目的。进一步,在样本输入的过程当中,本专利技术采用了比例均衡化的样本输入机制,不同于大多数的随机样本输入,比例均衡化的样本输入机制可以改善识别的准确率,对每批的输入样本数量进行类别上的比例平衡,来优化模型的训练。进一步的,利用不同于以往的损失函数定义,通过添加正则化项来对权值进行稀疏化,提高样本的识别率。附图说明图1为本专利技术实例中所述的方法流程图。图2为本专利技术实施例中所述三维卷积神经网络模型的构造示意图。具体实施方式下面结合具体的实施例对本专利技术做进一步的详细说明,所述是对本专利技术的解释而不是限定。本专利技术一种基于三维卷积神经网络的图像特征提取与训练方法,该方法构造了三维的卷积神经网络模型和相应的训练方法,不同于以往的二维卷积神经网络方法,在识别三维图像时需要对三维中的某一维信息进行平均或分为许多的通道,因此不能有效提取三维特征,本方法直接采用三维卷积进行三维特征的提取,并且在训练样本模型时,采用比例均衡化的小批量样本输入机制对梯度进行估计,避免了随机输入样本导致某些样本类别不能有效识别的弊端,采用改进的损失函数对权值进行稀疏限制,提高样本本文档来自技高网
...

【技术保护点】
1.一种基于三维卷积神经网络的图像特征提取与训练方法,其特征在于,包括如下步骤,步骤1,将进行特征提交的输入图像进行尺寸的归一化处理;步骤2,构建包括卷积层、激活层、池化层、全连接层和输出层的三维卷积神经网络;步骤2.1,通过将输入图像中若干张连续的图像堆叠成为一个立体图像的立方体,然后在这个立方体里通过如下三维卷积层对连续的多张图像进行加权求和的卷积操作,以提取图像的初级特征,得到初级特征图;

【技术特征摘要】
1.一种基于三维卷积神经网络的图像特征提取与训练方法,其特征在于,包括如下步骤,步骤1,将进行特征提交的输入图像进行尺寸的归一化处理;步骤2,构建包括卷积层、激活层、池化层、全连接层和输出层的三维卷积神经网络;步骤2.1,通过将输入图像中若干张连续的图像堆叠成为一个立体图像的立方体,然后在这个立方体里通过如下三维卷积层对连续的多张图像进行加权求和的卷积操作,以提取图像的初级特征,得到初级特征图;其中,O是第j层图像对应的第n个特征块的(x,y,z)处的输出,σ为激活函数,是i层图像的m个特征块和是j层图像的n个特征块之间的权重,Iim(x+p,y+q,z+r)是第i层图像到j层图像的输入,bjn为共享的偏置,p,q,r为x,y,z三个方向的采样步长;i和j为相邻两层的序号;步骤2.2,通过激活层对初级特征图添加非线性特征;步骤2.3,通过池化层来降低添加非线性特征的初级特征图的维度大小;步骤2.4,通过全连接层对池化层处理过的初级特征图提取高级特征,得到高级特征图;步骤2.5,通过输出层中的Softmax分类器将高级特征转化为激活概率,得到三维卷积神经网络的输出,完成三维卷积神经网络的构建;步骤3,对构建的三维卷积神经网络进行训练后得到优化的三维卷积神经网络,进行对输入图像进行特征提取,完成输入图像的分类识别。2.根据权利要求1所述的一种基于三维卷积神经网络的图像特征提取与训练方法,其特征在于,对输入图像依次进行步骤2.1到2.3的多次堆叠,执行多次堆叠时,卷积层的核心数逐次增加。3.根据权利要求1所述的一种基于三维卷积神经网络的图像特征提取与训练方法,其特征在于,步骤2.2中,通过在激活层中采用...

【专利技术属性】
技术研发人员:葛宝李雅迪
申请(专利权)人:陕西师范大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1