一种基于改进注意力机制的低精度图像语义分割方法技术

技术编号：27688418 阅读：22 留言：0更新日期：2021-03-17 04:16

本发明专利技术公开了一种基于改进注意力机制的低精度图像语义分割方法，包括以下步骤：S1、收集不同场景下的图像构成数据集，将数据集划分为训练集、验证集以及测试集；S2、使用改进后的MobileNet v2网络对预处理后的训练集图片进行特征提取，对不同层的特征图的分辨率进行上采样或下采样；S3、将S2中上采样或下采样后的特征图使用带有全局注意力特征模块的GASPP结构聚合多尺度的信息；S4、将MobileNet v2主干网络提取的低层细节特征和由步骤S3中聚合得到多尺度特征进行融合，并对得到的融合特征进行融合；S5、通过双线性插值上采样来对特征图进行解码，得到最终的分割图像。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于改进注意力机制的低精度图像语义分割方法
本专利技术属于深度学习和计算机视觉领域，具体涉及一种基于改进注意力机制的低精度图像语义分割方法。
技术介绍
21世纪以来，如何实现智能驾驶成为了人们越来越多谈论的话题。在面对智能车的普通场景下，语义分割技术是识别城市道路中障碍物、行驶区域、交通信号灯等不同对象的关键技术。语义分割是在像素级别上的分类，属于同一类的像素都要被归为一类，因此语义分割是从像素级别来理解图像的。在使用卷积神经网络的深度学习方法成为主流以前，TextonForest和基于随机森林分类器等语义分割方法是用得比较多的方法。这些方法设计简单，易于实现，但是特征提取环节主要依靠手动实现，分类效果较差。深度学习方法在语义分割上得到了巨大成功，深度学习方法解决语义分割问题可以概括为几种思路。2014年，全卷积网络(FCN)产生，FCN将网络全连接层用卷积取代，因此使任意图像大小的输入都变成可能，首先将一幅RGB图像输入到卷积神经网络后，经过多次卷积及池化过程得到一系列的特征图，然后利用反卷积层对最后一个卷积层得到的特征图进行上采样，使得上采样后特征图与原图像的大小一样，从而实现对特征图上的每个像素值进行预测的同时保留其在原图像中的空间位置信息，最后对上采样特征图进行逐像素分类，逐个像素计算softmax分类损失。encoder-decoder是基于FCN的架构。encoder由于pooling逐渐减少空间维度，而decoder逐渐恢复空间维度和细节信息。通常从encoder到d...

【技术保护点】
1.一种基于改进注意力机制的低精度图像语义分割方法，其特征在于，包括以下步骤：/nS1、收集不同场景下的图像并进行预处理，对图像进行标注，构成数据集，将数据集划分为训练集、验证集以及测试集；/nS2、使用改进后的MobileNet v2网络对预处理后的训练集图片进行特征提取，对不同层的特征图的分辨率进行上采样或下采样；/nS3、将步骤S2中上采样或下采样后的特征图使用带有全局注意力特征模块的GASPP结构网络聚合多尺度的信息；/nS4、将MobileNet v2网络提取的低层细节特征和由步骤S3中聚合得到多尺度特征进行融合，并且通过具有选择性注意力机制的解码器模块(SAM)对得到的融合特征进行融合；/nS5、通过双线性插值上采样来对特征图进行解码，得到最终的分割图像。/n

【技术特征摘要】
1.一种基于改进注意力机制的低精度图像语义分割方法，其特征在于，包括以下步骤：
S1、收集不同场景下的图像并进行预处理，对图像进行标注，构成数据集，将数据集划分为训练集、验证集以及测试集；
S2、使用改进后的MobileNetv2网络对预处理后的训练集图片进行特征提取，对不同层的特征图的分辨率进行上采样或下采样；
S3、将步骤S2中上采样或下采样后的特征图使用带有全局注意力特征模块的GASPP结构网络聚合多尺度的信息；
S4、将MobileNetv2网络提取的低层细节特征和由步骤S3中聚合得到多尺度特征进行融合，并且通过具有选择性注意力机制的解码器模块(SAM)对得到的融合特征进行融合；
S5、通过双线性插值上采样来对特征图进行解码，得到最终的分割图像。

2.根据权利要求1所述的一种基于改进注意力机制的低精度图像语义分割方法，其特征在于，步骤S2中所述的改进后的MobileNetv2网络是删除最后三层结构的MobileNetv2网络。

3.根据权利要求2所述的一种基于改进注意力机制的低精度图像语义分割方法，其特征在于，步骤S3中所述带有全局注意力特征模块的GASPP结构网络包括基于DeepLabv3+中的带有空洞卷积的空洞空间卷积池化金字塔(ASPP)模块，所述ASPP模块是采用的全局平均池化操作；
所述GASPP结构网络的每个分支包含有256个通道，并且引入全局注意力机制模块(GAM)，在空洞卷积的各分支后面增添3个3×3的卷积模块，并保留原来的1×1卷积。

4.根据权利要求3所述的一种基于改进注意力机制的低精度图像语义分割方法，其特征在于，所述改进后的MobileNetv2网络仅保留一层二维卷积层和七层线性瓶颈层，所述GAM将MobileNetv2主干网络中最后一层特征图作为输入，将特征图的大小展开为C×HW，其中参数C、W、H分别表示特征图的通道数、宽度、高度，通过转换映射提取全局注意力掩码，分别为通道数掩码和大小掩码C×HW和HW×C，通过这两个全局注意力掩码之间的点积，作为归一化函数sparsemax输入来提取特征之间的相关性，归一化函数如式(1)所示：
sparsemaxi(z)＝max(0,zi-τ(z))(1)
其中，注意力特征图向量为z＝[z1,z2,…,zk]，zk表示第k通道的注意力特征向量，对向量值进行排序由小到大，阙值是τ(z)，大小为：

...

【专利技术属性】
技术研发人员：陈纯玉，吴忻生，陈安，王博，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人