一种多尺度轻量级实时语义分割方法、系统技术方案

技术编号:38546776 阅读:11 留言:0更新日期:2023-08-22 20:55
本发明专利技术公开了一种多尺度轻量级实时语义分割方法、系统,该方法包括对互联网上公开的图像数据集进行预处理;构建基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络,生成编码器主干网络浅层、中间层和最深层特征图;将浅层、中间层和最深层特征图分别输入到轻量化注意力模块中,生成增强的特征图;将中间层和最深层特征图分别输入到轻量化物体上下文特征融合模块中并进行上采样操作,生成二倍增强的区域上下文信息特征图;将增强的浅层特征图和二倍增强的区域上下文信息特征图进行连接、池化、上采样操作,生成最终网络分割结果。本发明专利技术改善了传统语义分割网络模型体量过大、在算力资源有限的移动平台上平衡分割精度和实现效率的问题。精度和实现效率的问题。精度和实现效率的问题。

【技术实现步骤摘要】
一种多尺度轻量级实时语义分割方法、系统


[0001]本专利技术属于电子通讯与信息工程领域,具体涉及一种多尺度轻量级实时语义分割方法、系统。

技术介绍

[0002]语义分割是深度学习中一个十分重要的领域,指的是像素级别的图像分类,将图像中的像素归于类标签,即标注出图像中每个元素所属的像素类别。在深度学习技术崛起之前,计算机视觉领域内进行语义分割还是一个难题。但伴随近些年来深度学习的不断发展,语义分割领域中涌现出许多优秀的算法和模型,这使得语义分割在例如自动驾驶、医学影像处理、人机交互、机器人技术等越来越多的领域中崭露头角。
[0003]深度学习中的语义分割方法可以大致分为两类,一类是从基于滑动窗口的语义分割模型到基于候选区域的语义分割模型,另一种是基于编码器

解码器结构的语义分割模型。采用滑动窗口的语义分割模型是通过采用滑窗的方式,把以每个像素点为中心的小图像块输入到CNN(Convolutional Neural Networks, 卷积神经网络)中来预测这个像素点的语义标签,但这个方法在语义分割中需要计算图片中每个像素点滑动窗口的语义标签,参数量多,训练、预测速度慢,十分耗时。并且对于滑动窗口的大小无法给定,如果滑动窗口取值较大,那么计算量巨大,如果滑动窗口取值较小,那么缺少目标上下文信息。基于候选区域的语义分割模型代表是Mask R

CNN,它在基于区域卷积神经网络Faster R

CNN结构的基础上增加Mask预测分支,并且改良了ROI Pooling模块,提出了ROI Align这一区域特征聚集方式,满足了图像语义分割的准确度要求,强化了提取特征的能力。但Mask R

CNN的训练数据巨大,对内存的消耗也很高,不能一次性全部载入设备。

技术实现思路

[0004]本专利技术所要解决的技术问题是:提出了一种多尺度轻量级实时语义分割方法、系统,基于轻量化注意力模块和轻量化物体上下文特征融合模块构建多尺度轻量级语义分割网络模型,将深度可分离非对称卷积与扩展卷积相结合,提高了分割性能,降低了整个网络的复杂度,并提升了图片语义分割的分割精度和分割速度。
[0005]本专利技术为解决上述技术问题采用以下技术方案:本专利技术提出的一种多尺度轻量级实时语义分割方法,包括以下步骤:S1、获取互联网上公开的图像数据集,对其进行预处理。
[0006]S2、构建基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络,将预处理后的图片输入到该编码器主干网络中,生成编码器主干网络浅层特征图、中间层特征图和最深层特征图。
[0007]S3、将编码器主干网络中间层特征图和最深层特征图分别输入到轻量化注意力模块中,生成增强的中间层特征图和最深层特征图,将两个增强的特征图输入到轻量化物体上下文特征融合模块中,利用目标区域的表示来增强其像素的表示,生成增强的区域上下
文信息特征图。
[0008]S4、将编码器主干网络浅层特征图输入到轻量化注意力模块中,生成增强的浅层特征图,将增强的区域上下文信息特征图进行上采样操作,生成二倍增强的区域上下文信息特征图。把生成的两个特征图进行连接、池化、上采样操作,生成最终网络分割结果。
[0009]进一步的,步骤S2中,生成编码器主干网络浅层特征图、中间层特征图和最深层特征图的具体内容为:S201、基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络的构建:下采样模块中,使用并联的步长为2的3
×
3卷积层与2
×
2最大池化层,3
×
3卷积核能增大感受野,最大池化能提高下采样速度。
[0010]轻量化可分离非对称残差模块由两个低维分支构成,每个分支都有一半的输入通道。轻量化可分离非对称残差模块处理图像的内容为:对输入的特征图进行通道拆解操作,在左分支上使用3
×
1和1
×
3的1D分解卷积进行特征提取,在右分支上利用带有扩张率3
×
1和1
×
3的1D分解卷积进行特征提取,将两个分支连接,执行1
×
1逐点卷积恢复通道的数量,再进行一个通道洗牌操作,确保信息可以在不同的组之间流动;该模块引入残差结构,有助于解决梯度消失和梯度爆炸问题,具体计算公式为:具体计算公式为:;
[0011]其中,x
t
表示网络输入值,x
t+1
表示网络输出值,W
t
表示权重,表示激活函数,F()表示对应系数相乘的函数。
[0012]编码器主干网络由一个下采样模块、三个轻量化可分离非对称残差模块、一个下采样模块、两个轻量化可分离非对称残差模块、一个下采样模块、八个轻量化可分离非对称残差模块堆叠而成。其中,一个下采样模块和三个轻量化可分离非对称残差模块属于编码器主干网络浅层,一个下采样模块和两个轻量化可分离非对称残差模块属于编码器主干网络中间层,一个下采样模块和八个轻量化可分离非对称残差模块属于编码器主干网络最深层。
[0013]S202、将尺寸为W
×
H的预处理的图像输入到下采样模块中进行下采样操作,得到尺寸为W/2
×
H/2的特征图,再将其输入到三个扩张率分别2、3、5的轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行三次特征提取,得到编码器主干网络浅层特征图,其中W表示图像的宽,H表示图像的高。
[0014]S203、将尺寸为W/2
×
H/2编码器主干网络浅层特征图输入到下采样模块中进行下采样操作,得到尺寸为W/4
×
H/4的特征图,再将其输入到两个扩张率分别为2、3的轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行两次特征提取,得到编码器主干网络中间层特征图。
[0015]S204、将尺寸为W/4
×
H/4编码器主干网络中间层特征图输入到下采样模块中进行下采样操作,得到尺寸为W/8
×
H/8的特征图,再将其输入到八个扩张率分别为1、2、5、9、2、
5、13、17轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行八次特征提取,得到编码器主干网络最深层特征图。
[0016]进一步的,步骤S3中,生成增强的区域上下文信息特征图的具体步骤为:S301、将编码器主干网络中间层特征图输入到轻量化注意力模块中,对其分别进行空间维度上的全局最大池化和全局平均池化操作,生成两个维数为C
×1×
1的空间信息描述特征图,使用卷积核长度为K的一维卷积聚合通道邻域内的K个通道的信息,将卷积后的两个空间信息描述特征图按元素相加,通过 Sigmoid 函数运算,生成通道注意力图,具体公式为:;;
[0017]其中,M
C
表示通道注意本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多尺度轻量级实时语义分割方法,其特征在于,包括:S1、获取互联网上公开的图像数据集,对其进行预处理;S2、构建基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络,将预处理后的图片输入到该编码器主干网络中,生成编码器主干网络浅层特征图、中间层特征图和最深层特征图;S3、将编码器主干网络中间层特征图和最深层特征图分别输入轻量化注意力模块,生成增强的中间层特征图和最深层特征图,将两个增强的特征图输入轻量化物体上下文特征融合模块,生成增强的区域上下文信息特征图;S4、将编码器主干网络浅层特征图输入轻量化注意力模块,生成增强的浅层特征图,将增强的区域上下文信息特征图进行上采样操作,生成二倍增强的区域上下文信息特征图;对生成的两个特征图进行连接、池化、上采样操作,生成最终网络分割结果。2.根据权利要求1所述的多尺度轻量级实时语义分割方法,其特征在于,步骤S1中,对训练集图像进行预处理的具体内容为:S101、从互联网的公开数据源上获取图像数据集;S102、利用随机缩放和随机裁剪方法对图像数据集中的图片进行图像增强处理;S103、将增强处理后的图像调整为W
×
H尺寸,其中W表示图像的宽,H表示图像的高。3.根据权利要求1所述的多尺度轻量级实时语义分割方法,其特征在于,步骤S2中,生成编码器主干网络浅层特征图、中间层特征图和最深层特征图的具体内容为:S201、基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络的构建:下采样模块中,使用并联的步长为2的3
×
3卷积层与2
×
2最大池化层;轻量化可分离非对称残差模块由两个低维分支构成,每个分支都有一半的输入通道;其处理图像的内容为:对输入的特征图进行通道拆解操作,在左分支上使用3
×
1和1
×
3的1D分解卷积进行特征提取,在右分支上利用带有扩张率3
×
1和1
×
3的1D分解卷积进行特征提取,将两个分支连接,执行1
×
1逐点卷积恢复通道的数量,再进行通道洗牌操作,具体计算公式为:算公式为:;其中,x
t
表示网络输入值,x
t+1
表示网络输出值,W
t
表示权重,表示激活函数,F()表示对应系数相乘的函数;编码器主干网络由一个下采样模块、三个轻量化可分离非对称残差模块、一个下采样模块、两个轻量化可分离非对称残差模块、一个下采样模块、八个轻量化可分离非对称残差模块堆叠而成;其中,一个下采样模块和三个轻量化可分离非对称残差模块属于编码器主干网络浅层,一个下采样模块和两个轻量化可分离非对称残差模块属于编码器主干网络中间层,一个下采样模块和八个轻量化可分离非对称残差模块属于编码器主干网络最深层;S202、将尺寸为W
×
H的预处理的图像输入到下采样模块中进行下采样操作,得到尺寸
为W/2
×
H/2的特征图,再将其输入到三个扩张率分别2、3、5的轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行三次特征提取,得到编码器主干网络浅层特征图,其特征映射表示为:;其中,F1表示大小为W/2
×
H/2的特征图,表示轻量化可分离非对称残差模块,表示下采样模块,表示多通道输入;S203、将尺寸为W/2
×
H/2编码器主干网络浅层特征图输入到下采样模块中进行下采样操作,得到尺寸为W/4
×
H/4的特征图,再将其输入到两个扩张率分别为2、3的轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行两次特征提取,得到编码器主干网络中间层特征图,其特征映射表示为:;其中,F2表示大小为W/4
×
H/4的特征图;S204、将尺寸为W/4
×
H/4编码器主干网络中间层特征图输入到下采样模块中进行下采样操作,得到尺寸为W/8
×
H/8的特征图,再将其输入到八个扩张率分别为1、2、5、9、2、5、13、17轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行八次特征提取,得到编码器主干网络最深层特征图,其特征映射表示为:;其中,F3表示大小为W/8
×
H/8的特征图,表示轻量化可分离非对称残差模块堆叠8次。4.根据权利要求1所述的多尺度轻量级实时语义分割方法,其特征在于,步骤S3中,生成增强的区域上下文信息特征图的具体步骤为:S301、将编码器主干网络中间层特征图输入到轻量化注意力模块中,分别进行空间维度上的全局最大池化和全局平均池化操作,生成两个维数为C
×1×
1的空间信息描述特征图,使用卷积核长度为K的一维卷积聚合通道邻域内的K个通道的信息,将卷积后的两个空间信息描述特征图按元素相加,通过Sigmoid函数运算,生成通道注意力图,具体公式为:;;其中,M
C
表示通道注意力图,F表示输入的特征图,表示Sigmoid函数,表示卷积核大小为K的一维卷积操作,C表示输入特征图通道数,表示在空间维度上的均值池化特征,表示在空间维度上的最大池化特征,表示取最接近t的奇数;S302、将通道注意力图与编码器主干网络中间层特征图进行基...

【专利技术属性】
技术研发人员:陈苏婷韩光勋胡斌武杨宁薄业雯裴加明孙俊王茹慧刘涛
申请(专利权)人:南京中网卫星通信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1