一种适用于语义分割的深度学习网络构建方法及系统技术方案

技术编号:16233919 阅读:274 留言:0更新日期:2017-09-19 15:04
本发明专利技术公开了一种适用于语义分割的深度学习网络构建方法及系统,该方法在反卷积网络语义分割的基础上,考虑到条件随机场对边缘优化较好的特点,将条件随机场解释为递归网络融入到反卷积网络中,进行端对端的训练,使得卷积网络和递归网络中的参数学习相互作用,最终训练出更好的集成网络。本发明专利技术提出的反卷积网络和条件随机场联合训练的方式,得到更强的细节和形状信息,解决了图像边缘分割不太准确的问题;结合多尺度输入和多尺度池化的策略,解决了语义分割中由于感受野单一而产生的大目标被过分割或小目标被漏分割的情况。本发明专利技术对经典的反卷积网络进行扩展,利用条件随机场联合训练和多特征信息融合策略,提高语义分割的准确性。

Method and system for constructing depth learning network suitable for semantic segmentation

The invention discloses a method for semantic segmentation of deep learning network construction method and system, the method of segmentation based on semantic network deconvolution, taking into account the CRFs on edge optimization better characteristics of the CRFs interpreted as recursive networks into the deconvolution network, end-to-end training the parameter, convolutional network and recursive network learning interaction, finally trained better integrated network. The invention proposes the deconvolutional networks and conditional random field joint training, get more details and shape information, to solve the image edge segmentation is not too accurate; the combination of multi-scale input and multi scale pooling strategy to solve the big target due to the receptive field of single semantic segmentation or over segmentation the segmentation of the small target is missed. The present invention extends the classical deconvolution network and improves the accuracy of semantic segmentation by using conditional random field combined training and multi feature information fusion strategy.

【技术实现步骤摘要】
一种适用于语义分割的深度学习网络构建方法及系统
本专利技术属于计算机视觉
,更具体地,涉及一种适用于语义分割的深度学习网络构建方法及系统。
技术介绍
随着网络数据量的爆炸式增长,大数据图像处理和识别逐渐成为一个热门方向,其中深度学习技术已经成为大数据不可或缺的研究工具。虽然深度学习的发展时间不长,理论储备不完整,但深度网络构建方法层出不穷,在计算机视觉方向的应用效果显著。利用深度学习进行视觉感知立足于人脑视觉机理,多层次网络设计类比于分级的信息处理视觉系统。人的视觉系统处理分以下几部分,像素被瞳孔捕捉,然后大脑皮层发现边缘和方向,接着由边缘抽象出物体的形状,最后进一步抽象出物体的类别。深度网络类似,低级的层次提取边缘特征,中间级提取形状特征并做进一步抽象,最终获得整个目标或目标的行为更高层的特征进行分类。深度学习作为机器学习又一个新的里程碑,吸引了越来越多的图像研究者参与其中,具体理论包括图像分类,目标识别,语义分割等计算机视觉相关的问题,应用包括智能辅助驾驶系统、人脸识别、图像检索等方面。利用机器学习进行图像识别的思路一般按照以下几步进行:首先传感器获取图像数据,然后经过预处本文档来自技高网...
一种适用于语义分割的深度学习网络构建方法及系统

【技术保护点】
一种适用于语义分割的深度学习网络构建方法,其特征在于,包括:S1、对数据集中的图像进行多尺度变换,其中,所述数据集中的图像均已按照类别进行标记;S2、将经过多尺度变换后的图像以及相应标记作为深度学习网络的输入,进而对深度学习网络的Caffe框架中的网络结构文件和网络求解文件进行修改,其中,所述深度学习网络中依次包括卷积网络、反卷积网络以及平均场迭代层,所述网络结构文件的修改包括多尺度池化的网络设置,所述网络求解文件的修改包括训练参数设置;S3、在所述平均场迭代层中利用平均场迭代算法对所述反卷积网络输出进行迭代优化;S4、根据修改后的网络结构文件和网络求解文件,采用反卷积网络和条件随机场联合训练...

【技术特征摘要】
1.一种适用于语义分割的深度学习网络构建方法,其特征在于,包括:S1、对数据集中的图像进行多尺度变换,其中,所述数据集中的图像均已按照类别进行标记;S2、将经过多尺度变换后的图像以及相应标记作为深度学习网络的输入,进而对深度学习网络的Caffe框架中的网络结构文件和网络求解文件进行修改,其中,所述深度学习网络中依次包括卷积网络、反卷积网络以及平均场迭代层,所述网络结构文件的修改包括多尺度池化的网络设置,所述网络求解文件的修改包括训练参数设置;S3、在所述平均场迭代层中利用平均场迭代算法对所述反卷积网络输出进行迭代优化;S4、根据修改后的网络结构文件和网络求解文件,采用反卷积网络和条件随机场联合训练的方式,得到目标深度学习网络,所述目标深度学习网络能够对经过多尺度变换后的待测试图像进行语义分割。2.根据权利要求1所述的方法,其特征在于,步骤S2具体包括以下子步骤:S2.1、将经过多尺度变换后的图像以及相应标记作为输入送入到构建leveldb的可运行程序中,修改成Caffe能够直接使用的文件;S2.2、设置Caffe中的网络结构文件中的卷积层和池化层的类型以及网络结构文件中的操作参数,对最后一层池化层进行多尺度池化操作,将输入的图像分为与多尺度池化对应的多个区域,并获取每个区域的值填入最后一层池化层;S2.3、将平均场算法的实现添加到深度学习网络的caffe框架中;S2.4、caffe.proto更新ID(M,N),并设置参数;SIMPLE_FAST_MEANFIELD=M,MULTI_STAGE_MEANFIELD=N,其中,M、N为正整数;S2.5、改动深度学习网络的caffe框架中的网络结构文件中的训练文件和测试文件,添加相应的平均场迭代层;S2.6、对训练文件中的网络模型、基础学习率、学习更新策略、上一次梯度更新的权重、最大迭代次数以及运行模式进行设置。3.根据权利要求1所述的方法,其特征在于,步骤S3具体包括以下子步骤:S3.1、由得到平均场迭代的反馈输入,其中V2(t)=fθ(U,V1(t),I),0≤t≤T表示经过平均场迭代的输出;S3.2、由得到最终的输出结果,其中,softmax为进行概率的归一化操作,U为反卷积网络的输出,t表示当前迭代,T表示迭代总次数,V1和V2为迭代时的中间变量,I为输入的经过多尺度变换后的二维图像,fθ为平均场迭代算法计算过程,θ为需要训练的条件随机场的参数,包括各个高斯核函数的权重系数和二元关系之间的系数,Y(t)为最终的语义分割输出。4.根据权利要求3所述的方法,其特征在于,最终的平均场迭代的输出V2(t)的具体计算方法为:A1、用反卷积网络语义分割粗略结果对一元势函数项Ui(l)进行初始化,并由得到概率归一化值,其中Zi=∑lexp(Ui(l)),l为类别标记,Ui(l...

【专利技术属性】
技术研发人员:陶文兵张灿李坤乾
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1