一种基于改进注意力机制的低精度图像语义分割方法技术

技术编号:27688418 阅读:22 留言:0更新日期:2021-03-17 04:16
本发明专利技术公开了一种基于改进注意力机制的低精度图像语义分割方法,包括以下步骤:S1、收集不同场景下的图像构成数据集,将数据集划分为训练集、验证集以及测试集;S2、使用改进后的MobileNet v2网络对预处理后的训练集图片进行特征提取,对不同层的特征图的分辨率进行上采样或下采样;S3、将S2中上采样或下采样后的特征图使用带有全局注意力特征模块的GASPP结构聚合多尺度的信息;S4、将MobileNet v2主干网络提取的低层细节特征和由步骤S3中聚合得到多尺度特征进行融合,并对得到的融合特征进行融合;S5、通过双线性插值上采样来对特征图进行解码,得到最终的分割图像。

【技术实现步骤摘要】
一种基于改进注意力机制的低精度图像语义分割方法
本专利技术属于深度学习和计算机视觉领域,具体涉及一种基于改进注意力机制的低精度图像语义分割方法。
技术介绍
21世纪以来,如何实现智能驾驶成为了人们越来越多谈论的话题。在面对智能车的普通场景下,语义分割技术是识别城市道路中障碍物、行驶区域、交通信号灯等不同对象的关键技术。语义分割是在像素级别上的分类,属于同一类的像素都要被归为一类,因此语义分割是从像素级别来理解图像的。在使用卷积神经网络的深度学习方法成为主流以前,TextonForest和基于随机森林分类器等语义分割方法是用得比较多的方法。这些方法设计简单,易于实现,但是特征提取环节主要依靠手动实现,分类效果较差。深度学习方法在语义分割上得到了巨大成功,深度学习方法解决语义分割问题可以概括为几种思路。2014年,全卷积网络(FCN)产生,FCN将网络全连接层用卷积取代,因此使任意图像大小的输入都变成可能,首先将一幅RGB图像输入到卷积神经网络后,经过多次卷积及池化过程得到一系列的特征图,然后利用反卷积层对最后一个卷积层得到的特征图进行上采样,使得上采样后特征图与原图像的大小一样,从而实现对特征图上的每个像素值进行预测的同时保留其在原图像中的空间位置信息,最后对上采样特征图进行逐像素分类,逐个像素计算softmax分类损失。encoder-decoder是基于FCN的架构。encoder由于pooling逐渐减少空间维度,而decoder逐渐恢复空间维度和细节信息。通常从encoder到decoder还有shortcutconnetction(捷径连接,也就是跨层连接)。dilated/atrous(空洞卷积)架构,这种结构代替了pooling,一方面它可以保持空间分辨率,另外一方面它由于可以扩大感受野因而可以很好地整合上下文信息。还有一种对分割结果进行后处理的方法,那就是条件随机场(ConditionalRandomFields(CRFs))后处理用来改善分割效果。DeepLab系列文章基本都采用这种后处理方法,可以较好地改善分割结果。现有网络如U-Net网络,VGG网络等网络存在有实时性不足等问题,而轻量化网络如MoblieNet系列等又存在准确性不足等问题。如何在保证图像分割实时性的同时提高准确度,是本专利技术解决的重要问题。
技术实现思路
本专利技术的目的在于提供一种基于改进注意力机制的低精度图像语义分割方法,能够实现在低精度的网络中提高图像分割准确性。本专利技术目的至少通过以下技术方案之一实现。一种基于改进注意力机制的低精度图像语义分割方法,包括以下步骤:S1、收集不同场景下的图像并进行预处理,对图像进行标注,构成数据集,将数据集划分为训练集、验证集以及测试集;S2、使用改进后的MobileNetv2网络对预处理后的训练集图片进行特征提取,对不同层的特征图的分辨率进行上采样或下采样;S3、将步骤S2中上采样或下采样后的特征图使用带有全局注意力特征模块的GASPP结构网络聚合多尺度的信息;S4、将MobileNetv2网络提取的低层细节特征和由步骤S3中聚合得到多尺度特征进行融合,并且通过具有选择性注意力机制的解码器模块(SAM)对得到的融合特征进行融合;S5、通过双线性插值上采样来对特征图进行解码,得到最终的分割图像。优选的,步骤S2中所述的改进后的MobileNetv2网络是删除最后三层结构的MobileNetv2网络。优选的,步骤S3中所述带有全局注意力特征模块的GASPP结构网络包括基于DeepLabv3+中的带有空洞卷积的空洞空间卷积池化金字塔(ASPP)模块,所述ASPP模块是采用的全局平均池化操作;所述GASPP结构网络的每个分支包含有256个通道,并且引入全局注意力机制模块(GAM),在空洞卷积的各分支后面增添3个3×3的卷积模块,并保留原来的1×1卷积。优选的,所述改进后的MobileNetv2网络仅保留一层二维卷积层和七层线性瓶颈层,所述GAM将MobileNetv2主干网络中最后一层特征图作为输入,将特征图的大小展开为C×HW,其中参数C、W、H分别表示特征图的通道数、宽度、高度,通过转换映射提取全局注意力掩码,分别为通道数掩码和大小掩码C×HW和HW×C,通过这两个全局注意力掩码之间的点积,作为归一化函数sparsemax输入来提取特征之间的相关性,归一化函数如式(1)所示:sparsemaxi(z)=max(0,zi-τ(z))(1)其中,注意力特征图向量为z=[z1,z2,…,zk],zk表示第k通道的注意力特征向量,对向量值进行排序由小到大,阙值是τ(z),大小为:其中,其中,k表示通道总数,j表示当前通道下标,z(j)和z(k)并分别表示第j和k通道的注意力特征图向量,f(z)表示注意力特征图向量最大值。优选的,GASPP的计算公式如下:Z=GAM(X)⊙P3,6(P3(X))⊙P3,12(P5(X))⊙P3,18(P7(X))⊙P1(X)(1)其中,Z代表GASPP的输出,GAM(X)代表全局注意力操作,Pk(X)代表卷积操作,卷积核的大小在k×k,⊙代表按通道合并,将所有特征图串联后,串联后的特征图将通过一个1×1的卷积以便于减少通道数量。优选的,步骤S4中所述使用解码器模块SAM来将低层特征和多尺度特征进行融合,所述SAM包括挤压和激励网络(SENet),所述SAM在选择性注意力计算完之后进行上采样操作,输出尺寸恢复到输入状态,并根据此获得像素分布图。优选的,所述具有选择性注意力机制的解码器模块SAM中的选择性注意力模块分为两个不同支路,其中一条支路来自于所述带有全局注意力特征模块的GASPP结构网络的多尺度聚合高层特征信息;另一条支路来自于MobileNetv2网络的细节特征,使用一个1×1的卷积层来降低通道数。优选的,步骤S4中双线性插值上采样来对解码器融合的特征图进行解码,双线性插值是通过已知点的数值大小进行线性计算。优选的,所述线性计算如下:其中,中间点A和点B分别为R1和R2,其值分别为:其中,四个角落的坐标点分别为Q11=(x1,y1),Q12=(x1,y2),Q21=(x2,y1),Q22=(x2,y2)均为已知点,P(x,y)点为所求值,x表示x轴坐标,y表示y轴坐标。优选的,所述的预处理过程主要包括翻转、旋转、缩放和剪裁。与现有技术相比,本专利技术实现的有益效果至少如下:(1)针对低精度网络的语义分割准确性不足的问题,本方法采取了设计了一个带有全局注意力信息的ASPP结构GASPP和解码器模块SAM,有效提高了算法精度。(2)本专利技术能有效分割各种场景下的道路并抑制噪声,对车道图片的语义分割耗时少且准确性高,在车道线模糊、雨天、大雾和大区率等环境下均具有较好的适应性,在本文档来自技高网
...

【技术保护点】
1.一种基于改进注意力机制的低精度图像语义分割方法,其特征在于,包括以下步骤:/nS1、收集不同场景下的图像并进行预处理,对图像进行标注,构成数据集,将数据集划分为训练集、验证集以及测试集;/nS2、使用改进后的MobileNet v2网络对预处理后的训练集图片进行特征提取,对不同层的特征图的分辨率进行上采样或下采样;/nS3、将步骤S2中上采样或下采样后的特征图使用带有全局注意力特征模块的GASPP结构网络聚合多尺度的信息;/nS4、将MobileNet v2网络提取的低层细节特征和由步骤S3中聚合得到多尺度特征进行融合,并且通过具有选择性注意力机制的解码器模块(SAM)对得到的融合特征进行融合;/nS5、通过双线性插值上采样来对特征图进行解码,得到最终的分割图像。/n

【技术特征摘要】
1.一种基于改进注意力机制的低精度图像语义分割方法,其特征在于,包括以下步骤:
S1、收集不同场景下的图像并进行预处理,对图像进行标注,构成数据集,将数据集划分为训练集、验证集以及测试集;
S2、使用改进后的MobileNetv2网络对预处理后的训练集图片进行特征提取,对不同层的特征图的分辨率进行上采样或下采样;
S3、将步骤S2中上采样或下采样后的特征图使用带有全局注意力特征模块的GASPP结构网络聚合多尺度的信息;
S4、将MobileNetv2网络提取的低层细节特征和由步骤S3中聚合得到多尺度特征进行融合,并且通过具有选择性注意力机制的解码器模块(SAM)对得到的融合特征进行融合;
S5、通过双线性插值上采样来对特征图进行解码,得到最终的分割图像。


2.根据权利要求1所述的一种基于改进注意力机制的低精度图像语义分割方法,其特征在于,步骤S2中所述的改进后的MobileNetv2网络是删除最后三层结构的MobileNetv2网络。


3.根据权利要求2所述的一种基于改进注意力机制的低精度图像语义分割方法,其特征在于,步骤S3中所述带有全局注意力特征模块的GASPP结构网络包括基于DeepLabv3+中的带有空洞卷积的空洞空间卷积池化金字塔(ASPP)模块,所述ASPP模块是采用的全局平均池化操作;
所述GASPP结构网络的每个分支包含有256个通道,并且引入全局注意力机制模块(GAM),在空洞卷积的各分支后面增添3个3×3的卷积模块,并保留原来的1×1卷积。


4.根据权利要求3所述的一种基于改进注意力机制的低精度图像语义分割方法,其特征在于,所述改进后的MobileNetv2网络仅保留一层二维卷积层和七层线性瓶颈层,所述GAM将MobileNetv2主干网络中最后一层特征图作为输入,将特征图的大小展开为C×HW,其中参数C、W、H分别表示特征图的通道数、宽度、高度,通过转换映射提取全局注意力掩码,分别为通道数掩码和大小掩码C×HW和HW×C,通过这两个全局注意力掩码之间的点积,作为归一化函数sparsemax输入来提取特征之间的相关性,归一化函数如式(1)所示:
sparsemaxi(z)=max(0,zi-τ(z))(1)
其中,注意力特征图向量为z=[z1,z2,…,zk],zk表示第k通道的注意力特征向量,对向量值进行排序由小到大,阙值是τ(z),大小为:



...

【专利技术属性】
技术研发人员:陈纯玉吴忻生陈安王博
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1