基于深度学习的图像语义分割方法及存储介质技术

技术编号:24458832 阅读:98 留言:0更新日期:2020-06-10 16:22
本发明专利技术公开了一种基于深度学习的图像语义分割方法及存储介质,图像语义分割方法包括在特征提取网络后串联一个平均全局池化层和全连接层作为分类的预训练模型,并采用Imagenet‑1K数据集对预训练模型进行分类训练;将训练后的预训练模型中的特征提取网络与轻量级ASPP模块和两个特征增强模块依次连接构成语义分割模型;通过翻转、旋转和缩放对数据集cityscapes进行扩充,并采用扩充后的数据集对语义分割模型进行训练,得到目标语义分割模型;将预处理后的新图片输入目标语义分割模型,在目标语义分割模型中进行一次前向传播,端到端地输出预测的语义分割结果。

Image semantic segmentation method and storage medium based on deep learning

【技术实现步骤摘要】
基于深度学习的图像语义分割方法及存储介质
本专利技术涉及图像处理技术,具体涉及一种基于深度学习的图像语义分割方法及存储介质。
技术介绍
当前绝大多数最佳的图像语义分割方法多是以deeplabv3+为基础的编码器-解码器框架。编码器部分:首先deeplabv3+通过在ImagNet数据集上预训练resnet得到特征提取网络,但下采样会降低特征的分辨率,导致信息丢失,于是将最后一个残差块的普通卷积替代为空洞卷积,这个残差块内的每个卷积都使用了不同的扩张率来捕捉多尺度的语境信息。然后,将提取的特征输入到ASPP模块。ASPP模块将输入的特征同时输出到五个模块中,第一个模块采用平均池化对特征进行融合,使得编码模块最后的特征图能够融合图像的多尺度信息,可以提高小目标的分割精度。第2到第5个模块采用了不同膨胀率的空洞卷积对特征进行提取,获得4种拥有不同感受野的特征,膨胀率分别是1,6,12,18。ASPP输出的特征通道数一般来说会很大,所以之后将这五个模块的输出作concat,然后通过一个1x1的卷积层,降低特征的通道数到需要的数值,最后得到编码部分的输出。解码器部分:编码器输出的特征虽然能够提供丰富的语义信息,但是多次下采样操作会导致特征边界信息丢失,如果直接上采样到原图尺寸会导致语义分割结果的物体边界模糊,分割精度会很低。于是首先将编码模块的输出进行四倍的上采样操作,然后从特征提取网络中选择一张分辨率一致的特征图,这张特征图进行1x1的普通卷积扩大通道数并使之与四倍上采样得到的输出一致,然后将这两部分特征进行concat,最后通过3x3的普通卷积和四倍的上采样得到预测结果。尽管空洞残差模块和ASPP使得deeplabv3+在图像语义分割上获得了较高的精度,但过大的计算量导致其无法进行实时的场景处理,同时大量的膨胀卷积会导致网格效应,同时直接将上下文特征concat后上采样的解码方式过于粗糙。
技术实现思路
针对现有技术中的上述不足,本专利技术提供的基于深度学习的图像语义分割方法及存储介质解决了现有技术中图像语义分割方法运算量大的问题。为了达到上述专利技术目的,本专利技术采用的技术方案为:第一方面,提供一种基于深度学习的图像语义分割方法,其包括:在特征提取网络后串联一个平均全局池化层和全连接层作为分类的预训练模型,并采用Imagenet-1K数据集对预训练模型进行分类训练;将训练后的预训练模型中的特征提取网络与轻量级ASPP模块和两个特征增强模块依次连接构成语义分割模型;通过翻转、旋转和缩放对数据集cityscapes进行扩充,并采用扩充后的数据集对语义分割模型进行训练,得到目标语义分割模型;将预处理后的新图片输入目标语义分割模型,在目标语义分割模型中进行一次前向传播,端到端地输出预测的语义分割结果。进一步,所述特征增强模块包括双通道注意力模块、空间注意力模型和特征融合模块;所述采用扩充后的数据集对语义分割模型进行训练,得到目标语义分割模型进一步包括:S1、于扩充后的数据集中随机选取一张图片输入语义分割模型中的特征提取网络得到分辨率为原图1/32的特征图;S2、将特征图输入轻量级ASPP模块进行融合,得到融合多尺度信息的高级特征;S3、第一个特征增强模块的空间注意力模块和双通道注意力模块对高级特征和特征提取网络中间部分跳接而来的低级特征进行修正,分别得到修正后的高级特征和低级特征;S4、将修正后得到的高级特征和低级特征输入第一个特征增强模块的特征融合模块得到高级特征;S5、采用第二个特征增强模块的空间注意力模块和双通道注意力模块对第一个特征增强模块输出的高级特征和特征提取网络中间部分跳接而来的低级特征进行修正,分别得到再次修正后的高级特征和低级特征;S6、将再次修正后得到的高级特征和低级特征输入第二个特征增强模块的特征融合模块得到最终的高级特征,并对最终的高级特征进行上采样完成一次迭代,并将训练迭代次数累加一次;S7、判断训练迭代次数是否大于等于预设迭代次数,若是,进入步骤S8,否则返回步骤S1;S8、完成语义分割模型的训练,得到目标语义分割模型。第二方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有图像语义分割程序,所述图像语义分割程序被处理器执行时实现图像语义分割方法的步骤。采用上述方案后,本专利技术的有益效果为:(1)本方案的语义分割方法采用预训练好的特征提取网络做基础模型进行特征提取,得到的特征经过轻量级ASPP模块可以在速度和精度上取得提升。(2)现在常用的特征融合只是将高低级别特征做concat或者sum操作,无法剔除特征中伴有的噪声,而本方案在特征融合前分别让高低级特征经过空间注意力模块和双通道注意力模块,剔除特征中的噪声,在只消耗微量计算的情况下提升网络分割的精度。附图说明图1为基于深度学习的图像语义分割方法的流程图。图2为本方案的语义分割模型的结构图。图3为本方案的特征增强模块的结构图。图4为本方案的双通道注意力模块的结构图。图5为本方案的空间注意力模块的结构图。图6为本方案的特征融合模块的结构图。图7为本方案的轻量级ASPP模块的结构图。具体实施方式下面对本专利技术的具体实施方式进行描述,以便于本
的技术人员理解本专利技术,但应该清楚,本专利技术不限于具体实施方式的范围,对本
的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本专利技术的精神和范围内,这些变化是显而易见的,一切利用本专利技术构思的专利技术创造均在保护之列。参考图1,图1示出了基于深度学习的图像语义分割方法的流程图;如图1所示,该方法100包括步骤101至步骤104。在步骤101中,在特征提取网络后串联一个平均全局池化层和一个输出为1000的全连接层作为分类的预训练模型,并采用Imagenet-1K数据集对预训练模型进行分类训练,参见表1。表1为训练后的预训练模型Imagenet-1K数据集包含1K个类别,由1,281,167张训练集,50000张验证集,100000张测试集组成。在对预训练模型进行分类训练时,其训练策略为:输入为统一resize为224×224,batch_size为256,优化策略为SGD随机梯度下降法,正则项系数weight_decay为0.0001,动量参数power为0.9,损失函数为交叉熵损失函数,先使用0.1的学习率训练5轮,然后使用0.8的学习率训练80轮。在步骤102中,将训练后的预训练模型中的特征提取网络与轻量级ASPP模块和两个特征增强模块依次连接构成语义分割模型;语义分割模型的结构图可以参考图2。其中,特征增强模块包括双通道注意力模块、空间注意力模型和特征融合模块,特征增强模块的结构图可以参考图3。在步骤103中,通过翻转、旋转和缩放对数据集cityscapes进行扩充,并采用扩充后的本文档来自技高网
...

【技术保护点】
1.基于深度学习的图像语义分割方法,其特征在于,包括:/n在特征提取网络后串联一个平均全局池化层和全连接层作为分类的预训练模型,并采用Imagenet-1K数据集对预训练模型进行分类训练;/n将训练后的预训练模型中的特征提取网络与轻量级ASPP模块和两个特征增强模块依次连接构成语义分割模型;/n通过翻转、旋转和缩放对数据集cityscapes进行扩充,并采用扩充后的数据集对语义分割模型进行训练,得到目标语义分割模型;/n将预处理后的新图片输入目标语义分割模型,在目标语义分割模型中进行一次前向传播,端到端地输出预测的语义分割结果。/n

【技术特征摘要】
1.基于深度学习的图像语义分割方法,其特征在于,包括:
在特征提取网络后串联一个平均全局池化层和全连接层作为分类的预训练模型,并采用Imagenet-1K数据集对预训练模型进行分类训练;
将训练后的预训练模型中的特征提取网络与轻量级ASPP模块和两个特征增强模块依次连接构成语义分割模型;
通过翻转、旋转和缩放对数据集cityscapes进行扩充,并采用扩充后的数据集对语义分割模型进行训练,得到目标语义分割模型;
将预处理后的新图片输入目标语义分割模型,在目标语义分割模型中进行一次前向传播,端到端地输出预测的语义分割结果。


2.根据权利要求1所述的基于深度学习的图像语义分割方法,其特征在于,所述特征增强模块包括双通道注意力模块、空间注意力模型和特征融合模块;
所述采用扩充后的数据集对语义分割模型进行训练,得到目标语义分割模型进一步包括:
S1、于扩充后的数据集中随机选取一张图片输入语义分割模型中的特征提取网络得到分辨率为原图1/32的特征图;
S2、将特征图输入轻量级ASPP模块进行融合,得到融合多尺度信息的高级特征;
S3、第一个特征增强模块的空间注意力模块和双通道注意力模块对高级特征和特征提取网络中间部分跳接而来的低级特征进行修正,分别得到修正后的高级特征和低级特征;
S4、将修正后得到的高级特征和低级特征输入第一个特征增强模块的特征融合模块得到高级特征;
S5、采用第二个特征增强模块的空间注意力模块和双通道注意力模块对第一个特征增强模块输出的高级特征和特征提取网络中间部分跳接而来的低级特征进行修正,分别得到再次修正后的高级特征和低级特征;
S6、将再次修正后得到的高级特征和低级特征输入第二个特征增强模块的特征融合模块得到最终的高级特征,并对最终的高级特征进行上采样完成一次迭代,并将训练迭代次数累加一次;
S7、判断训练迭代次数是否大于等于预设迭代次数,若是,进入步骤S8,否则返回步骤S1;
S8、完成语义分割模型的训练,得到目标语义分割模型。


3.根据权利要求2所述的基于深度学习的图像语义分割方法,其特征在于,所述特征提取网络由五部分串联构成,其中一、二部分均为步长为2的3x3标准卷积;
第三部分和第四部分相同,均由1个过渡层和2个密集连接层串联而成,过渡层由两个并联支路组成,两个支路的输入相同,一个支路是步长为2的3x3标准卷积串联一个步长为1的3x3标准卷积,另一个支路是步长为2的1x1标准卷积,两个支路的输出相加作为与其连接的密集连接层的输入,两个密集连接层都是由两个步长为1的3x3标准卷积串联而成的标准残差结构;
第五部分由1个过渡层、2个密集连接层和1个过渡层串联而成,第五部分的第一个过渡层和2个密集连接层与第三部分的组成结构相同,第二个过渡层由两个并联支路组成,两个支路的输入相同,一个支路是步长为1的3x3标准卷积串联一个步长为1的3x3标准卷积,另一个支路是步长为1的1x1标准卷积,两个支路的输出相加作为特征提取网络的输出。


4.根据权利要求2所述的基于深度学习的图像语义分割方法,其特征在于,所述轻量级ASPP模块包括三个支路,特征提取网络的输出作为轻量级ASPP模块的输入特征,输入特征并行输入到轻量级ASPP模块的三个支路进...

【专利技术属性】
技术研发人员:程博管庆元楚楚潘晔胡全汪浩翔文卓豪雍怡然
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1