当前位置: 首页 > 专利查询>江南大学专利>正文

利用紧凑型深度卷积神经网络进行图像识别的方法技术

技术编号:20273565 阅读:35 留言:0更新日期:2019-02-02 04:02
本发明专利技术涉及一种利用紧凑型深度卷积神经网络进行图像识别的方法。针对深度卷积神经网络的结构越来越复杂,参数规模过于庞大的问题,设计出一种新的紧凑型卷积神经网络结构Width‑MixedNet和其多分支的基本模块Conv‑mixed,该架构扩展了卷积神经网络的宽度。在深度卷积神经网络的识别任务中,使用多个小型卷积层叠加,逐层缩小特征图的方法代替全连接层作最后的特征提取。分别在CIFAR‑10、CIFAR‑100和MNIST数据集上进行实验,结果表明,Width‑MixedNet有更强的学习能力和表现能力,在提高识别精度的同时,大大降低了网络的参数规模。

【技术实现步骤摘要】
利用紧凑型深度卷积神经网络进行图像识别的方法
本专利技术涉及神经网络,特别是涉及利用紧凑型深度卷积神经网络进行图像识别的方法。
技术介绍
深度神经网络在图像识别领域取得了突破性的进展,但是网络的参数规模越来越大,参数量达到百万级,甚至千万级,不利于应用。为了更好地解决这个问题,一种方式是压缩现有的CNN模型,Howard[1]等人提出的基于深度可分离的卷积结构MoblieNet,引入了传统网络中原先采用的group思想,即限制滤波器的卷积计算只针对特定的group中的输入,将标准卷积分离成一个深度卷积和一个点卷积极大程度的降低了卷积计算,同时提升了计算速度。基于MobileNet的group思想,ShuffleNet[2]将输入的group打散,结合深度可分离卷积代替类似于ResNetblock单元构成了ShuffleNet单元,解决了多个group叠加出现的边界效应,减少了计算量,增强了网络的表现力。Theis[3]等人通过使用对角Fisher信息值在尽量避免训练损失的前提下一次去掉一个卷积的特征图的方法来剪枝。另一种方式是权值压缩,Han[4]等人基于权值聚类的方法将连续分散的权值离散化,从而减少需要存储的权值数量,并采用Huffmanencoding将平均编码长度减少实现减小模型尺寸的目的,最后采用CSR(CompressedSparseRow)来存储。Rastegari等人提出的XNOR-Net[5]输入和输出都量化成二值,将输入数据先进行BN归一化处理,接着进行二值化的卷积操作,实现32倍的存储压缩同时训练速度得到58倍的提升。
技术实现思路
基于此,有必要针对上述技术问题,提供一种利用紧凑型深度卷积神经网络进行图像识别的方法。一种利用紧凑型深度卷积神经网络进行图像识别的方法,利用以下的紧凑型深度卷积神经网络实现:所述紧凑型深度卷积神经网络包含一种新的基本模块Conv-mixed,其中,前一层的输出(Previouslayer)作为Conv-mixed的输入,输入共有5个分支,分别为:P-C0-C1-C2,P-C3-C4-C5,P-C6,P-A-C7,P-C8;C8之后又是2个分支C8-C9和C8-C9,最后各个分支在输出通道上合并;在每一次的卷积操作之前,都对其输入进行BatchNormalization正则化,所有的卷积都采用ReLU激活函数进行非线性化;在分支结构里加入空洞卷积;在深度卷积神经网络的识别任务中,使用多个小型卷积层叠加,逐层缩小特征图的方法代替全连接层作最后的特征提取;在Conv-mixed结构之前,先使用了少量的普通卷积和最大池化;优化Width-MixedNet架构时,在Conv-mixed合并多通道的特征图后面使用了多个1×1的卷积,在最后的Conv-mixed结构之后是多个小型卷积层堆叠代替全连接层,作为最后的特征提取。上述利用紧凑型深度卷积神经网络进行图像识别的方法,在深度卷积神经网络的识别任务中,使用多个小型卷积层叠加,逐层缩小特征图的方法代替全连接层作最后的特征提取。分别在CIFAR-10、CIFAR-100和MNIST数据集上进行实验,结果表明,Width-MixedNet有更强的学习能力和表现能力,在提高识别精度的同时,大大降低了网络的参数规模。一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。附图说明图1为本申请实施例提供的一种利用紧凑型深度卷积神经网络进行图像识别的方法中Inception模块的示意图。图2为本申请实施例提供的一种利用紧凑型深度卷积神经网络进行图像识别的方法Fire模块的示意图。图3为本申请实施例提供的一种利用紧凑型深度卷积神经网络进行图像识别的方法中Conv-mixed模块的示意图。图4为本申请实施例提供的一种利用紧凑型深度卷积神经网络进行图像识别的方法中模块普通卷积和空洞卷积的对比的示意图。图5为本申请实施例提供的一种利用紧凑型深度卷积神经网络进行图像识别的方法中FCN中将全连接层转换为卷积层,参数数量为1.5M的示意图。图6为本申请实施例提供的一种利用紧凑型深度卷积神经网络进行图像识别的方法中多个小型卷积堆叠代替全连接,参数数量为0.25M的示意图。图7为本申请实施例提供的一种利用紧凑型深度卷积神经网络进行图像识别的方法中深度卷积神经网络架构Width-MixedNet的示意图。图8为本申请实施例提供的一种利用紧凑型深度卷积神经网络进行图像识别的方法中CIFAR-10的交叉熵损失函数的折线图。图9为本申请实施例提供的一种利用紧凑型深度卷积神经网络进行图像识别的方法中MNSIT的交叉熵损失函数的折线图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术鉴于CNN结构的压缩理论,分析了现有的不同的CNN结构模型,设计了多分支的Conv-mixed结构,并设计了新的紧凑型深度卷积神经网络架构Width-MixedNet,分别在CIFAR-10、CIFAR-100和MNIST数据集上进行实验,结果表明,Width-MixedNet在参数规模远低于其他深度神经网络结构的情况下,取得了更好的效果。传统的深度卷积神经网络都是以convolutions-poolingstack起来的直线型结构,比如2012年AlexKrizhevsky[6]提出的由5个convolution层和3个full-connection层堆叠成的AlexNet,2014年VisualGeometryGroup和GoogleDeepMind研发的由3x3的小型卷积核反复堆叠的19层VGGNet[7],之后由微软训练的多达152层的ResNet[8]。上述的深度卷积神经网络的深度的逐渐加深,虽然达到的精度也越来越高,伴随而来的是网络的参数越来越庞大,容易导致过拟合,计算量也变得相当大,难以应用,并且网络越深,容易导致梯度消失,模型难以优化。为了深度神经网络能在有硬件条件限制的平台上能够广泛应用(比如自动驾驶汽车、无人机、VR设备等),紧凑型的网络模型设计引起了很多关注。为了让深度卷积神经网络有更好的提取特征和学习能力,最直接有效的方法是增加卷积层的通道,但这会增加整个网络的计算量,容易导致过拟合。因为卷积神经网络中每一个输出通道只对应一个卷积核,同一个层参数共享,因此一个输出通道只能提取一种特征。在文献[9]中提出的MLPConv代替传统的卷积层,将输出通道之间信息进行组合,相当于普通卷积层之后再连接1×1的卷积核ReLU激活函数,因为内核为1×1的卷积层只有一个参数,只需要很小的计算量就可以提取一层特征,增加一层网络的非线性化。在2014年ILSVRC的比赛中,GoogleInceptionNet[10]以较大的优势夺冠,值得注意的是,InceptionNet精心设计的Incept本文档来自技高网...

【技术保护点】
1.一种利用紧凑型深度卷积神经网络进行图像识别的方法,其特征在于,利用以下的紧凑型深度卷积神经网络实现:所述紧凑型深度卷积神经网络包含一种新的基本模块Conv‑mixed,其中,前一层的输出(Previous layer)作为Conv‑mixed的输入,输入共有5个分支,分别为:P‑C0‑C1‑C2,P‑C3‑C4‑C5,P‑C6,P‑A‑C7,P‑C8;C8之后又是2个分支C8‑C9和C8‑C9,最后各个分支在输出通道上合并;在每一次的卷积操作之前,都对其输入进行BatchNormalization正则化,所有的卷积都采用ReLU激活函数进行非线性化;在分支结构里加入空洞卷积;在深度卷积神经网络的识别任务中,使用多个小型卷积层叠加,逐层缩小特征图的方法代替全连接层作最后的特征提取;在Conv‑mixed结构之前,先使用了少量的普通卷积和最大池化;优化Width‑MixedNet架构时,在Conv‑mixed合并多通道的特征图后面使用了多个1×1的卷积,在最后的Conv‑mixed结构之后是多个小型卷积层堆叠代替全连接层,作为最后的特征提取。

【技术特征摘要】
1.一种利用紧凑型深度卷积神经网络进行图像识别的方法,其特征在于,利用以下的紧凑型深度卷积神经网络实现:所述紧凑型深度卷积神经网络包含一种新的基本模块Conv-mixed,其中,前一层的输出(Previouslayer)作为Conv-mixed的输入,输入共有5个分支,分别为:P-C0-C1-C2,P-C3-C4-C5,P-C6,P-A-C7,P-C8;C8之后又是2个分支C8-C9和C8-C9,最后各个分支在输出通道上合并;在每一次的卷积操作之前,都对其输入进行BatchNormalization正则化,所有的卷积都采用ReLU激活函数进行非线性化;在分支结构里加入空洞卷积;在深度卷积神经网络的识别任务中,使用多个小型卷积层叠加,逐层缩小特征图的方...

【专利技术属性】
技术研发人员:吴进钱雪忠
申请(专利权)人:江南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1