一种改进全卷积神经网络的语义分割方法技术

技术编号:19635666 阅读:20 留言:0更新日期:2018-12-01 16:18
本发明专利技术公开了一种基于改进全卷积神经网络的语义分割方法,包括步骤:获取训练图像数据;将训练图像数据输入多孔全卷积神经网络,先通过标准卷积池化层得到尺寸缩小的特征图;再通过多孔卷积层在维持特征图尺寸的同时提取更稠密的特征;最后对特征图进行逐像素预测得到分割结果;且训练中利用随机梯度下降法SGD对多孔全卷积神经网络中的参数进行训练;获取需要语义分割的图像输入训练后的多孔全卷积神经网络,得到对应的语义分割结果。本发明专利技术可以改善全卷积网络中最终上采样恢复的特征图失去对图像的细节敏感性的问题,同时在不增加参数数量以及计算量的前提下,有效地扩大了滤波器的感受野。

A Semantic Segmentation Method Based on Improved Full Convolutional Neural Network

The present invention discloses a semantics segmentation method based on improved full convolution neural network, which includes steps: acquiring training image data; inputting training image data into porous full convolution neural network, first obtaining a feature map of reduced size through standard convolution pooling layer; and then maintaining the same size of feature map through porous convolution layer. At last, the segmentation result is obtained by pixel-by-pixel prediction of the feature map; and the parameters of the porous full convolution neural network are trained by SGD method in training; the porous full convolution neural network which needs semantic segmentation is acquired after input training, and the corresponding semantic segmentation is obtained. Result. The method can improve the problem of losing the sensitivity to image details of the feature map recovered from the final up-sampling in the full convolution network, and effectively expand the sensing field of the filter without increasing the number of parameters and the amount of calculation.

【技术实现步骤摘要】
一种改进全卷积神经网络的语义分割方法
本专利技术涉及一种基于多孔全卷积神经网络的语义分割方法,属于计算机视觉的领域。
技术介绍
图像语义分割是图像理解的关键性技术,广泛应用于自动驾驶系统(具体为街景识别与理解)、无人机应用(着陆点判断)以及穿戴式设备中。图像语义分割实现对图片中所有像素点的分类。在深度学习应用到图像语义分割之前,有最简单的像素级别的阈值法、基于像素聚类的分割法和图划分的分割法等多种方法。Shi等提出了基于图划分的Normalizedcut(N-cut)方法,将分割的不同部分与全图节点的连接权重考虑进去从而达到考虑全局信息的目的。Rother等提出了同样基于图划分的Grabcut方法,这是一种交互式的语义分割方法,其利用图像中的纹理信息和边界信息,使得只需少量的用户交互操作就可得到较好的前后背景分割结果。这些方法多是根据图像像素自身的低阶视觉信息来进行图像分割。由于没有算法训练阶段,虽然计算复杂度不高,但有着较高的分割错误率。近年来,深度学习的快速发展极大地推动了语义分割的进步。Dan等基于深度学习提出了图像块分类方法,即利用像素周围的图像块对每一个像素进行独立的分类,当时的卷积网络末端通常使用全连接层,因此需要固定尺寸的图像来进行逐像素的分割。Long等提出了全卷积神经网络进行像素级别端到端的语义分割,在接收不同尺寸图像的同时也极大地提升了分割的效率,但分割效果仍然不够精细,同时很难对不同尺寸的同一物体进行正确的分割。Papandreou等提出了将多尺度图像输入网络最后整合输出特征的方法,提高了对多尺度图像的适应能力。综上所述,顺应发展趋势,采用卷积神经网络提取图像特征。然而其中仍存在一些问题值得研究,如卷积神经网络结构的设计来兼顾网络权重与特征提取效果,损失函数的设计来更好的进行语义分割任务。
技术实现思路
本专利技术所要解决的技术问题在于克服现有技术的不足,提供一种基于改进全卷积神经网络的语义分割方法,解决现有全卷积网络中由于连续多次的最大池化和下采样操作造成特征分辨率急剧降低,使最终上采样恢复的特征图失去对图像的细节敏感性的问题。本专利技术实现上述目的的技术解决方案为:一种改进全卷积神经网络的语义分割方法,其特征在于包括以下步骤:步骤1、获取训练图像数据;步骤2、将训练图像数据输入改建得到的多孔全卷积神经网络进行训练;步骤3、获取需要语义分割的图像数据,并输入至训练后的多孔全卷积神经网络,获得对应的语义分割结果。进一步地,作为本专利技术的一种优选技术方案:所述训练的过程为:首先经过三个标准卷积池化模块,之后进行多孔卷积提取更稠密的特征得到尺寸变小的得分图,然后对得分图双线性插值得到原始图像尺寸特征图并作放大处理,最后进行逐像素预测得到分割结果;且训练中利用随机梯度下降法SGD对全卷积神经网络FCN中的参数训练。更进一步地,作为本专利技术的一种优选技术方案:训练过程中对所得原始图像尺寸特征图放大处理依次为卷积、批归一化及反卷积处理。更进一步地,作为本专利技术的一种优选技术方案:训练过程中利用随机梯度下降法SGD训练所需建立的损失函数:其中,L(x)代表损失函数目标值;所述为网络输出的语义分割预测结果,y为训练图像数据集中的真实结果;参数c取值为i为图像中像素坐标,且x∈(-c,c)。进一步地,作为本专利技术的一种优选技术方案:步骤1还包括利用数据扩充方法对训练图像样本数据扩充。更进一步地,作为本专利技术的一种优选技术方案:所述数据扩充方法至少为旋转、缩放、随机水平翻转或平移处理。进一步地,作为本专利技术的一种优选技术方案:步骤1还包括对所获取训练图像数据减去自身像素平均值的预处理步骤。本专利技术提供的基于改进全卷积神经网络的语义分割方法,采用多孔卷积替代全卷积网络中的标准卷积,从而使得卷积网络在计算特征响应时能够精确控制图像的分辨率,同时在不增加参数数量以及计算量的前提下,有效地扩大了滤波器的感受野,使图像包含进了更多的上下文内容,丰富了特征图细节,提升了语义分割的精度。附图说明图1为本专利技术基于多孔全卷积网络的语义分割方法的原理示意图。具体实施方式以下便结合实施例附图,对本专利技术的具体实施方式作进一步的详述,以使本专利技术技术方案更易于理解、掌握,从而对本专利技术的保护范围做出更为清晰的界定和支持。如图1所示,本专利技术设计了一种改进全卷积网络的语义分割方法,基于全卷积神经网络进行改进得到多孔全卷积网络并对其进行端到端的训练。本方法具体包括以下步骤:步骤1、获取训练图像数据。由于网络层次较为深,所需训练的参数量较多,所以需要准备的训练数据量需要达到一定的量级要求。选用PASCALVOC2012数据集,数据集分为原始数据集和增强数据集两部分,都包含20个前景物体类别和一个背景类别。本申请将增强数据集用于训练阶段,其包含了11355张图片,其中的8498张用于训练;原始数据集下有17125张图片,选取分割类别下的762张图片用作实验的验证。所述将训练图像样本数据进行训练过程具体如下:运用数据扩充方法,即小范围旋转、缩放、随机水平翻转处理。数据扩充的方法能扩充图像样本量并且增加图像的多样性,以使训练得到的网络模型有较强的鲁棒性。优选地,还可以包括预处理方法为对样本图像数据集减去其像素平均值。步骤2、首先,建立基于多孔全卷积网络的框架结构,基础网络为ImageNet竞赛中VGG网络的前13层卷积层,将其中的最后三个全连接层改为标准卷积层构成全卷积网络,并将其中部分标准卷积改成多孔卷积。整个网络共有5个池化层,池化层之间经过若干卷积层与激活层,为了方便讨论图1省去了激活函数。融合的过程中包括卷积层、批归一化层和反卷积。其次,将所获取的训练图像数据输入建立的多孔全卷积网络进行训练,其过程如下:步骤21、将训练图像数据输入多孔全卷积网络,由每个池化层依次获得各层的输出特征图像,即:以池化层为界,每个步长为2的池化层输出特征图像尺寸为其前一池化层输出特征图像尺寸的1/2,经过三个池化层后输出特征图像尺寸缩减为输入图像尺寸的1/8。将最后两个池化层步长设为1防止特征图像分辨率进一步的降低。前四个卷积池化模块通道数分别为64、128、256和512。网络中卷积层中的卷积核大小均采用3×3的尺寸,激活层使用ReLu激活函数。步骤22、将第五个卷积池化模块和之后的一个卷积层中的标准卷积改成多孔卷积,以此改善池化步长改为1带来的滤波器感受野减小的问题。多孔卷积输出信号y[i]定义如下:其中,x[i]为一维输入信号,w[k]为滤波器,K为其长度,比例系数r对应了输入信号的采样步长,当r=1时,即标准卷积。设这两个多孔卷积的采样步长分别为2和4,输出通道数为512和4096。步骤23、之后图像经过最后两个卷积层,输出通道数为4096和21。这两个卷积层之前分别有一个Dropout层。Dropout层在模型训练时随机让网络某些隐含层节点的权重不工作,不工作的那些节点暂时认为不是网络结构的一部分,但是保留其权重为下次样本输入时恢复工作做准备,有效防止模型过拟合问题。最后经过步长为8的反卷积得到原图尺寸的分割结果。步骤24、并利用随机梯度下降法SGD对多孔全卷积神经网络中的参数训练。网络的训练通过随机梯度下降法SGD来完成。数据集通过步骤1已准备完成,在训练时本文档来自技高网
...

【技术保护点】
1.一种改进全卷积神经网络的语义分割方法,其特征在于包括以下步骤:步骤1、获取训练图像数据;步骤2、将训练图像数据输入改建得到的多孔全卷积神经网络进行训练;步骤3、获取需要语义分割的图像数据,并输入至训练后的多孔全卷积神经网络,获得对应的语义分割结果。

【技术特征摘要】
1.一种改进全卷积神经网络的语义分割方法,其特征在于包括以下步骤:步骤1、获取训练图像数据;步骤2、将训练图像数据输入改建得到的多孔全卷积神经网络进行训练;步骤3、获取需要语义分割的图像数据,并输入至训练后的多孔全卷积神经网络,获得对应的语义分割结果。2.根据权利要求1所述改进全卷积神经网络的语义分割方法,其特征在于:所述训练的过程为:首先经过三个标准卷积池化模块,之后进行多孔卷积提取更稠密的特征得到尺寸变小的得分图,然后对得分图双线性插值得到原始图像尺寸特征图并作放大处理,最后进行逐像素预测得到分割结果;且训练中利用随机梯度下降法SGD对全卷积神经网络FCN中的参数训练。3.根据权利要求2所述改进全卷积神经网络的语义分割方法,其特征在于:训练过程中对所得原始图像尺寸特征图放大处理...

【专利技术属性】
技术研发人员:霍智勇戴伟达
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1