基于交错空洞卷积UNet的图像语义分割方法技术

技术编号:35990295 阅读:34 留言:0更新日期:2022-12-17 23:05
基于交错空洞卷积UNet的图像语义分割方法适用于计算机视觉领域。该方法使用了交错空洞卷积模块以及边缘保持模块。交错空洞卷积模块通过交错式的融合方式,即避免了将表达不同物体的特征进行相加,又有效的融合分布在不同通道的特征。而边缘保持模块通过将不同卷积核的卷积层的输出做差得到边缘特征,经整合后加和到输出特征上。该模块具有锐化特征边缘信息的能力。从而增强模型对于边缘的预测能力。该方法的提出,主要解决的技术问题包括多感受野的特征融合与图像语义分割的细节优化,从而获得更好的语义分割性能。得更好的语义分割性能。得更好的语义分割性能。

【技术实现步骤摘要】
基于交错空洞卷积UNet的图像语义分割方法


[0001]本专利技术适用于计算机视觉领域中的图像语义分割技术。

技术介绍

[0002]图像语义分割是计算机视觉的核心任务之一,其目的是对视觉输入进行像素级分类,是自动驾驶、医疗诊断、行人检测以及场景理解等视觉分析的基础,图像语义分割的好坏直接影响后续算法的结果。近年来,随着深度学习的快速发展,大量的图像语义分割算法被提出,总体上分为以下三类:基于编码器-解码器的语义分割网络、基于残差网络的语义分割网络以及基于空洞卷积的语义分割网络
[0003](1)基于编码器

解码器的语义分割网络
[0004]受全卷积网络(Fully convolutional network,FCN)的启发,SegNet网络使用编码器

解码器的对称结构。其中,编码器通过卷积和池化的组合不断对图像进行下采样,所得到的特征图的尺寸虽然越来越小,但具备的语义分辨性越来越强;而解码器阶段负责对特征图进行恢复至输入尺寸,并预测像素点的语义类别。而UNet网络为了解决解码器阶段上采样造成的大量边缘细节丢失,通过横向跳跃连接将浅层特征与深层特征相融合,在一定程度上恢复了物体的细节。
[0005](2)基于残差网络的语义分割网络
[0006]全分辨率残差网络(Full

Resolution Residual Networks,FRRN),它对目标具有很强的定位和识别功能。该网络使用残差流和池化流将多尺度上下文信息和像素级精度结合起来,残差流携带全分辨率信息以实现精确的分割边界,池化流用于获取高层特征。但该网络对于分割图像的边界处理不够精细,使得一些图像的分割边界模糊或被忽略。在此基础上,全局卷积语义分割网络(Global Convolutional Network,GCN)能够同时解决语义分割的分类和定位问题。在目标定位时采用堆叠思想,利用基于残差的边界细化进一步精调目标边界,将每一层的定位结果上采样后,与上一层的定位结果融合相加,得到最后的像素级预测结果。
[0007](3)基于空洞卷积的语义分割网络
[0008]空洞卷积可以在不增加参数量的情况下增加感受野,将多个不同的空洞率的卷积层堆叠,可以捕获多尺度上的对象以及图像上下文信息。使用空洞卷积的语义分割网络主要是Deeplab系列。Deeplabv1率先使用了空洞卷积,而Deeplabv2中提出了带有空洞卷积的金字塔池化模块(AtrousSpatial Pyramid Pooling,ASPP),并使用条件随机场进行后处理。但条件随机场带来性能提升的同时,也带来了参数量变大以及计算复杂度增加的问题。从Deeplab v3开始,Deeplab系列舍弃了条件随机场(Conditional Randomfield,CRF)后处理模块,提出了更加通用的、适用任何网络的分割框架,对ResNet最后的Block做了复制和级联,对ASPP模块做了升级,在其中添加了批量归一化层(Batch Normalization,BN)。Deeplab v3+在Deeplab v3的基础上做了扩展和改进,其主要改进就是在编解码结构上使用了ASPP,即编解码+ASPP结构。另外Deeplab v3+的Backbone换成了Xception,其深度可分
离卷积的设计使得分割网络更加高效。
[0009]由于图像语义分割中物体尺寸范围较大、细节较多以及语义性复杂等问题,现有的图像语义分割网络存在着以下两个缺点:(a)难以将不同感受野的特征很好的融合,丰富特征的语义信息;(b)难以对物体的边缘细节进行准确的预测。因此本专利技术提出了两个通用模块:交错空洞卷积(Alternating AtrousConvolution,AAC)模块以及边缘保持(Edge Preserve,EP)模块。其中AAC模块通过交错式的融合方式更好的融合不同感受野的特征,增强特征所能表达的感受野的范围;而EP模块可以增强特征的细节信息,从而提高网络对于物体边缘细节的预测能力。

技术实现思路

[0010]本专利技术提出了一种基于交错空洞卷积UNet的图像语义分割方法。该方法使用了交错空洞卷积模块以及边缘保持模块。将不同感受野的特征进行融合是一种显著提升语义分割性能的手段,然而直接相加或拼接难以很好的融合不同感受野的特征。直接相加的融合方式会将来自不同感受野特征的相同通道处的特征进行相加,然而这些特征可能并非表达同一物体;直接拼接的方式导致相似但感受野不同的特征在通道维度上距离较远,不能有效的融合分布在不同通道的特征。交错空洞卷积模块通过交错式的融合方式,即避免了将表达不同物体的特征进行相加,又有效的融合分布在不同通道的特征。而边缘保持模块通过将不同卷积核的卷积层的输出做差得到边缘特征,经整合后加和到输出特征上。该模块具有锐化特征边缘信息的能力。从而增强模型对于边缘的预测能力。该方法的提出,主要解决的技术问题包括多感受野的特征融合与图像语义分割的细节优化,从而获得更好的语义分割性能。
[0011]本专利技术所提出的基于交错空洞卷积UNet的图像语义分割方法能够有效避免传统语义分割方法的不足。通过引入交错空洞卷积操作,有效的将不同感受野的特征进行融合,丰富特征所能表达的物体的尺寸范围;通过引入边缘保持模块,对特征的边缘细节信息进行加强,避免网络在增强特征的语义信息的同时损失掉大量细节信息。图2给出了基于交错空洞卷积的图像语义分割网络的总体结构图。
[0012]本专利技术通过以下技术方案实现:
[0013]输入为RGB图像数据,首先对数据集中的图像数据进行处理,用于模型的训练;再将处理后的图像数据送入网络,对建立的网络的参数进行训练;对训练好的模型进行测试,最后输出图像语义分割标签结果。图像语义分割流程图如图1所示,其具体步骤如下:
[0014]步骤一:建立基于交错空洞卷积的深度网络模型
[0015]1.训练数据输入
[0016]本专利技术提出的网络将RGB数据作为输入。具体地,对Synapse数据集,以18个CT扫描文件用于训练;对ACDC数据集,以包含左心室、右心室以及心肌三个语义类别的80个文件用于训练;对ISIC2017数据集,以2000张皮肤镜像图作为训练集;对PH2数据集,以150张皮肤镜像图作为训练集。
[0017]2.设计交错空洞卷积模块
[0018]特征的感受野代表了其所能表达的物体的尺寸范围,所以特征的感受野范围越广,特征的表达能力越强。将不同感受野的特征进行融合是扩大感受野范围的一种方式,但
简单的拼接或相加并不能很好的融合这些特征,因此,本专利技术提出了交错空洞卷积模块。
[0019]如图2(b)所示,对于AAC模块的输入F∈R
C*H*W
,首先经过1x1的卷积,之后将结果经过2条支路,2条支路分别为空洞率为1和2的空洞卷积,卷积核的大小为3x3,以此来得到感受野不同的相似特征F1∈R
C1*H*W
以及F2∈R
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于交错空洞卷积UNet的图像语义分割方法,其特征在于:步骤一:建立基于交错空洞卷积的深度网络模型1)训练数据输入将RGB数据作为输入;2)设计交错空洞卷积模块输入F∈R
C*H*W
,首先经过1x1的卷积,之后将结果经过2条支路,2条支路分别为空洞率为1和2的空洞卷积,卷积核的大小为3x3,以此来得到感受野不同的相似特征F1∈R
C1*H*W
以及F2∈R
C2*H*W
;其中C1和C2均为0.5倍的C;并将这些特征按照通道顺序进行交错排列来得到组合特征,并经过1x1卷积来融合特征,丰富感受野,得到模型的输出F

∈R
C*H*W
;模块每条支路输出的通道数等于输入模块的特征的通道数除以支路数,保证了模块输出的特征与输入的特征在维度上一致;3).设计边缘保持模块提出了一种边缘保持模块;对于模块的输入特征Z∈R
C*H*W
分别经过一个1x1卷积和一个3x3卷积得到特征Z1∈R
C*H*W
和Z2∈R
C*H*W
,并用Z1减去Z2得到丰富的细节信息Z3∈R
C*H*W
,将Z3经过1x1卷积来进行锐化后,与Z2进行相加得到输出Z

∈R
C*H*W
;4).设计基于交错空洞卷积UNet的语义分割网络基于交错空洞卷积UNet网络采用U型的编码

解码结构,对于输入的图像I∈R
1*224*224
,首先经过左侧的编码器进行编码;输入的图像I经过3次3x3卷积和下采样操作,得到三种不同尺度的特征X1∈R
64*112*112
、X2∈R
256*56*56
和X3∈R
512*28*28
;在进入解码器之前,特征X3首先经过12个Transformer层来进一步提升语义信息,得到特征X4∈R
512*14*14
;将特征X4经过3x3卷积以及上采样操作得到特征X3

∈R
256*28*28
;将特征X3与X3

进行拼接,并经过3x3卷积以及上采样操作,得到特征X2

∈R
128*56*56
;将特征X2分别经过AAC模块以及EP模块,并将得到的输出进行拼接得到特征M2∈R
512...

【专利技术属性】
技术研发人员:王少帆刘玉坤孙艳丰尹宝才
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1