一种随机最大池化深度卷积神经网络噪声图形分类方法技术

技术编号:20993341 阅读:36 留言:0更新日期:2019-04-29 23:05
本发明专利技术公开一种针对含有噪声图像分类的新型深度卷积神经网络方法,主要特点在于采用了随机最大值池化这一新的池化方法。随机最大值池化方法随机选取感受野范围内前n个较大值作为池化结果,首先将感受野范围内的所有值进行排序,选出前n个较大值;然后在前n个较大值中随机选取一个值作为池化结果。随机最大值池化方法结合了最大池化方法和随机池化方法的特点,既能保留感受野内主要特征信息,又能提高网络对感受野内噪声的抑制作用。本发明专利技术在CIFAR‑10,SVHN和MNIST数据集上进行验证,取得较好效果。

A Noise Graphics Classification Method Based on Random Maximum Pooling Depth Convolution Neural Network

The invention discloses a novel depth convolution neural network method for classifying noisy images, which is characterized by adopting a new pooling method of random maximum pooling. Random maximum pooling method randomly chooses the first n larger values in the range of receptive field as the pooling result. First, all the values in the range of receptive field are sorted and the first n larger values are selected. Then, one of the first n larger values is randomly selected as the pooling result. The random maximum pooling method combines the characteristics of the maximum pooling method and the random pooling method. It can not only retain the main characteristic information in the receptive field, but also improve the network's suppression of the noise in the receptive field. The method is validated on CIFAR 10, SVHN and MINIST data sets and achieves good results.

【技术实现步骤摘要】
一种随机最大池化深度卷积神经网络噪声图形分类方法
本专利技术属于计算机视觉
,涉及到针对噪声图像的分类方法,具体为一种基于随机最大值池化的深度卷积神经网络噪声图像分类方法。
技术介绍
在计算机视觉领域,图像分类是一项非常重要的研究内容,被广泛应用在人脸识别,汽车自动驾驶等场合。图像分类问题关键的是特征提取,特征提取的好坏直接影响分类精度。传统的图像分类是通过人工设计特征[1-4],如HOG-特征、LBP特征和SIFT特征等来实现。随着科学技术的发展,数据集规模增大,且应用场景不断变化,人工设计特征的过程较为复杂,泛化能力较差,无法满足实时性要求和鲁棒性。2006年以来,深度学习迅速发展[5-7],在图像分类问题中取得巨大成功。其中,深度卷积神经网络模型应用最为广泛,通过自上而下的非线性数据抽象,来获得用于分类的特征信息,避免了传统人工特征复杂的设计过程。在深度卷积神经网络中,卷积和池化操作操作是提取特征的主要方式。为了获得更好的网络分类性能,研究人员针对卷积核和池化层提出多种改进策略。针对传统卷积核尺寸固定的问题,谷歌团队提出GoogleNet[8],网络使用Bottleneck结构,对网络每一层特征图利用不同尺寸的卷积核进行特征提取,获得了不同尺度的特征信息;为了在参数数量增加较少的情况下获取更加全局性的特征信息,Fisher[9]等人提出空洞卷积,通过分散卷积点,使得卷积点之间存在空洞,增加了卷积核的视野范围;为了能够增加网络的泛化能力,Zeiler[10]于2013年提出随机池化的概念,通过引入概率值,赋予所有节点被选择的可能性。上述方法的改进均未考虑噪声的影响,而实际应用中,大多数图像是含有噪声信息的。为了减少噪声对网络分类性能的影响,目前常用的解决方案有两种:对输入图像进行去噪和增强网络本身的鲁棒性。图像去噪的方法有基于空间域的中值滤波、基于小波域的小波阈值滤波和基于偏微分方程的图像去噪等。增强网络本身鲁棒性最常用的方法是在训练过程中人为增加特定噪声以提高网络对噪声的“免疫性”,如Goodfellow[11]等人提出对抗网络,Hinton等人提出Dropout[12]。本专利技术从特征提取的源头出发,对池化方式进行改进,提出一种基于随机最大值池化的深度卷积神经网络,提高对噪声图像的分类性能。
技术实现思路
目前深度卷积神经网络针对噪声图像分类的改进方案较少,主要从增强网络模型整体泛化能力的角度进行改进,并未能从特征提取的角度消除噪声对分类性能的影响。本专利技术的技术方案为:一种基于随机最大值池化的深度卷积神经网络的噪声图像分类方法,结合了最大池化方法和随机池化方法的特点,既能保留感受野内主要特征信息,又能提高网络对感受野内噪声的抑制作用,包括以下步骤:1)将实验数据分成训练集和测试集。2)对训练集和数据集进行数据预处理:2.1)为了提升网络的检测速度,达到实时性要求,将数据集中所有图片尺寸变换成32×32;2.2)对训练集和数据集进行对比度归一化处理,归一化的目的是能够使图像具有仿射不变性,并加快网络收敛的速度;2.3)对训练集和数据集进行白化处理,去除数据之间的相关性,并具有相同的方差,降低输入的冗余性;3)采用基于随机最大值池化的深度卷积神经网络进行训练和检测:3.1)在大量实验的基础上,确定网络结构及网络参数,包括卷积层数,特征图的数量和激活函数等;3.2)利用训练集进行网络训练。为了解决噪声图像中高频信息对网络提取特征过程的干扰,采用随机最大值池化方法进行深度卷积神经网络训练;3.3)利用训练出来的网络模型对测试集进行测试。4)将训练好的网络模型作为含噪声图像分类工具。本专利技术与现有增强网络模型泛化能力的方法相比,在特征提取过程中对噪声产生抑制作用,减少噪声对网络分类性能的影响。附图说明图1为本专利技术实现流程图图2为本专利技术的网络框架图。图3为本专利技术不同n值(选取较大值的个数)下的收敛曲线。图4为本专利技术与其他三种模型在噪声图像分类中的收敛曲线。图5为本专利技术与其他三种模型在CIFAR-10和SVHN中的分类精度。图6为本专利技术与其他三种模型在含噪声CIFAR-10和SVHN中的分类精度。具体实施方式本专利技术针对噪声图像提出了一种基于随机最大值池化的深度卷积神经网络图像分类方法,包括以下步骤:1)将实验数据分成训练集和测试集,训练集用来训练模型,测试集用来检测模型分类性能。2)对训练集和数据集进行数据预处理:2.1)为了提升网络的检测速度,达到实时性要求,将数据集中所有图片尺寸变换成32×32,这个尺寸与大多数标准数据集的尺寸一致;2.2)对训练集和数据集进行对比度归一化处理,归一化的目的是能够使图像具有相同分布,并加快网络收敛的速度。对比度归一化的具体公式如下:其中,其中μ和σ分别为均值和标准差。2.3)对训练集和数据集进行白化处理,去除数据之间的相关性,并具有相同的方差,降低输入的冗余性。白化操作的具体公式如下:其中,xrot,i为数据xi经过PCA变换后的数据,λi为对应特征值。3)采用随机最大值池化深度卷积神经网络进行训练和检测:3.1)在大量实验的基础上,确定网络结构及网络参数,包括卷积层数,特征图的数量和激活函数等。本专利技术采用7层网络结构,包括4个卷积层和3个池化层,4个卷积层的特征图数量依次为32×32×64×64,卷积核大小为4,池化尺寸为3×3,激活函数为ReLu,代价函数为Softmax。网络结构如图1所示。3.2)利用训练集进行网络训练。采用随机最大值池化方法进行深度卷积神经网络训练。随机最大值池化方法随机选取感受野范围内前n个较大值作为池化结果。首先将感受野范围内的所有值进行排序,并选出前n个较大值;然后在前n个较大值中随机选取一个值作为池化结果。本专利技术所提方法计算公式如下:yrestricted=random(sn).其中,random函数将随机选取任意一值;sn表示感受野范围内前n个较大值,如果设定n=3,那么在图2中灰色表示的数字即为前3个较大值,随机最大值池化则会从这三个值中随机选择一个作为最终的池化结果。3.3)利用训练出来的网络模型对测试集进行测试。4)将训练好的网络模型作为含噪声图像分类工具。本专利技术在CIFAR-10和SVHN数据集上与其他几种方法进行比较,包括基于最大值池化的网络(模型A)、基于均值池化的网络(模型B)、基于随机池化的网络(模型C)和基于随机最大值池化的网络(模型D)。图5展示了当n=3时,上述四种模型的分类性能。从图5中可以看出,本专利技术所提模型较其他模型,错误率最低,在SVHN和Cifar-10上正确率分别达到95.1%和78.9%。最大值池化和均值池化模型正确率基本相同,随机池化模型错误率低于前两者,但高于随机最大值池化模型。实验过程中发现n的选择对最终的结果影响较大。为了找出效果最好的n值,设定n=1~9,进行一系列实验。实验结果如图3所示。从图中可以看出,并不是n值越大效果越好,随着n值得增大错误率会逐渐增高,当n=9时,则退化为随机池化,因此错误率会增加。上述实验验证了本专利技术对分类问题的有效性。为了证明对噪声图片分类的有效性,将SVHN和Cifar-10数据集加入高斯噪声(均值为0,方差为0.1),图6为分类效果。从图6可以看出本文档来自技高网
...

【技术保护点】
1.一种基于随机最大值池化的深度卷积神经网络噪声图像分类方法,其特征在于针对噪声图像分类,首先对其进行预处理,然后通过基于随机最大值池化的深度卷积神经网络进行模型训练,利用训练好的深度卷积神经网络模型进行噪声图像分类,包括以下步骤:1)将数据集分成训练集和测试集。2)对训练集和数据集进行数据预处理:2.1)为了提升网络的检测速度,达到实时性要求,将数据集中所有图片尺寸变换成32×32;2.2)对训练集和数据集进行对比度归一化处理,归一化的目的是能够使图像具有仿射不变性,并加快网络收敛的速度;2.3)对训练集和数据集进行白化处理,去除数据之间的相关性,并具有相同的方差,降低输入的冗余性。3)采用基于随机最大值池化的深度卷积神经网络进行训练和检测:3.1)在大量实验的基础上,确定网络结构及网络参数,包括卷积层数,特征图的数量和激活函数等;3.2)利用训练集进行网络训练。为了解决噪声图片中高频信息对网络提取特征过程的干扰,采用随机最大值池化方法进行深度卷积神经网络训练;3.3)利用训练出来的网络模型对测试集进行测试,确定网络性能。4)将训练好的网络模型作为含噪声图像分类工具。

【技术特征摘要】
1.一种基于随机最大值池化的深度卷积神经网络噪声图像分类方法,其特征在于针对噪声图像分类,首先对其进行预处理,然后通过基于随机最大值池化的深度卷积神经网络进行模型训练,利用训练好的深度卷积神经网络模型进行噪声图像分类,包括以下步骤:1)将数据集分成训练集和测试集。2)对训练集和数据集进行数据预处理:2.1)为了提升网络的检测速度,达到实时性要求,将数据集中所有图片尺寸变换成32×32;2.2)对训练集和数据集进行对比度归一化处理,归一化的目的是能够使图像具有仿射不变性,并加快网络收敛的速...

【专利技术属性】
技术研发人员:芮挺费建超杨成松唐建刘建青芮思琦齐奕李华兵田辉刘好全刘华丽邵发明
申请(专利权)人:中国人民解放军陆军工程大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1