一种基于注意力的轻量化非对称场景语义分割方法及系统技术方案

技术编号:38819573 阅读:9 留言:0更新日期:2023-09-15 19:58
本发明专利技术公开了一种基于注意力的轻量化非对称场景语义分割方法及系统,构建包括:卷积下采样模块、基于通道注意力的深度非对称模块、并行下采样模块、基于空间注意力的金字塔池化模块和基于像素注意力的多尺度特征融合模块的实时场景语义分割网络。利用卷积下采样模块,并行下采样模块和基于通道注意力的深度非对称模块构建编码器,利用基于空间注意力的金字塔池化模块、基于像素注意力的多尺度特征融合模块、1

【技术实现步骤摘要】
一种基于注意力的轻量化非对称场景语义分割方法及系统


[0001]本专利技术属于图像语义分割
,具体涉及一种基于注意力的轻量化非对称场景语义分割方法及系统。

技术介绍

[0002]语义分割是一种典型的计算机视觉问题。图像语义分割旨在对一幅场景图像中的每一个像素进行分类,属于同一类的像素被归为一类,并用不同的颜色对不同的类进行标注,是一种像素级别的分类任务。广泛应用于医疗影像、遥感图像以及土地分析等。
[0003]早期传统图像语义分割主要通过基于边缘、纹理、形状、颜色等底层特征等手工设计分类器进行分割,然后对分割后图像进行语义的标注。例如,基于阈值的分割方法、基于边缘的分割方法、基于区域生长的分割方法、基于图的分割方法以及基于能量泛函的分割等等。这些传统方法可以在一定程度上取得良好的分割效果,但需要针对不同场景的特点设计不同的手工特征提取器,由于手工设计特征提取器的要求相对较高,且泛化性能不好,无法大规模应用到真实复杂的场景当中,限制了传统图像语义分割的发展。
[0004]近年来随着计算机硬件CPU、内存以及GPU等运算处理能力、传输速度的提升,使得深度学习等人工智能领域的研究也突飞猛进,基于深度学习的图像语义分割方法也取得了重大成功。图像语义分割技术也开始被应用于自动驾驶、机器人等一些先进领域。现有的许多基于深度学习的图像语义分割方法通常使用已经实现较好分类性能的分类网络作为主干网络或者构建较大的网络模型利用更深的卷积层和更多的通道数来获取足够的特征信息,实现更高的分割精度。比如:DeepLabV3使用101层的ResNet

101作为主干网络提取特征,同时引入空洞空间金字塔池化模块,在Cityscapes数据集上实现了82.7%mIoU的高分割精度。但此类方法因为较大的网络模型、更深的卷积层和更多的通道数导致含有巨大的参数量,由于过分追求分割的准确性,导致推理速度较慢,无法达到实时效果,难以部署在可穿戴设备、小型机器人以及车载系统等边缘设备上。

技术实现思路

[0005]本专利技术提出了一种基于注意力的轻量化非对称场景语义分割方法及系统,设计卷积下采样模块和并行下采样模块进行下采样和初步特征提取,设计基于通道注意力的深度非对称模块提取局部特征和上下文特征,设计基于空间注意力的金字塔池化模块获取多尺度上下文信息,设计基于像素注意力的多尺度特征融合模块融合不同尺度信息。相较于传统语义分割方法,本专利技术提高了场景图像的分割精度,同时加快了推理速度,在精度和速度之间达到一个较好的平衡。
[0006]本专利技术采用以下技术方案:一种基于注意力的轻量化非对称场景语义分割方法,执行以下步骤,步骤1:获取待处理图像;步骤2:针对待处理图像,利用预训练的以图像为输入,以该图像对应的语义分割
图像为输出的语义分割模型,获得待处理图像对应的语义分割图像;所述语义分割模型包括编码器、解码器,待处理图像通过编码器提取获得其对应的特征图,解码器基于编码器提取的特征图获得待处理图像对应的语义分割图像;所述待处理图像通过编码器提取获得其对应的特征图,具体过程如下:步骤A1:待处理图像作为输入图像通过卷积下采样模块进行下采样和特征提取获得特征图,并且将输入图像使用平均池化下采样两倍获得特征图,进而将特征图和进行拼接获得特征图;步骤A2:特征图通过一个并行下采样模块进行下采样获得特征图,然后特征图顺次经过三个基于通道注意力的深度非对称模块依次对特征图进行特征提取,获得特征图,并且将输入图像使用平均池化下采样四倍获得特征图,进而将特征图、和进行拼接获得特征图;步骤A3:特征图通过一个并行下采样模块进行下采样获得特征图,然后特征图顺次经过八个基于通道注意力的深度非对称模块依次对特征图进行特征提取,得特征图,并且将输入图像使用平均池化下采样八倍获得特征图,进而将特征图、和进行拼接获得特征图;所述解码器基于编码器提取的特征图获得待处理图像对应的语义分割图像,具体过程如下:步骤B1:特征图通过基于空间注意力的金字塔池化模块进行多尺度信息提取获得特征图;步骤B2:特征图、特征图通过一个基于像素注意力的多尺度特征融合模块进行融合上采样获得特征图;步骤B3:特征图、特征图通过一个基于像素注意力的多尺度特征融合模块进行融合上采样处理获得特征图;步骤B4:特征图通过1
×
1卷积将该特征图通道处理成分割类别数,并使用双线性插值上采样进行上采样,获得待处理图像对应的语义分割图像。
[0007]作为本专利技术的一种优选技术方案,所述卷积下采样模块具体为:首先卷积下采样模块输入图像经过一个步长为2的3
×
3卷积对输入图像进行下采样,然后顺序经过两个步长为1的3
×
3卷积来提取特征获得卷积下采样模块输出特征图,公式表示为:;其中,为3
×
3卷积。
[0008]作为本专利技术的一种优选技术方案,针对所述步骤A2中三个各基于通道注意力的深度非对称模块、以及步骤A3中八个基于通道注意力的深度非对称模块,基于通道注意力的
深度非对称模块结构相同,基于通道注意力的深度非对称模块具体为:首先基于通道注意力的深度非对称模块输入特征图经过一个3
×
3卷积将通道数减半,然后分别通过并行的两个分支,一个分支使用非对称卷积分解的3
×
3深度卷积用来提取局部特征,另一个分支使用非对称卷积分解的3
×
3深度膨胀卷积用来提取上下文特征;进而基于与拼接获得,使用全局平均池化进行池化,然后顺序经过两个1
×
1卷积进行特征增强,接着使用sigmoid函数进行非线性激活获得通道注意力;最后将注意力与特征图逐元素相乘获得增强后的特征图,再将增强后的特征图与输入特征图相加,然后进行通道重排操作,获得深度非对称模块输出特征图;公式表示为:;其中,和为非对称卷积分解的3
×
3深度卷积获得的3
×
1和1
×
3的深度非对称卷积,和为非对称卷积分解的3
×
3深度膨胀卷积获得的3
×
1和1
×
3的深度非对称膨胀卷积,为拼接操作,为通道重排操作,为全局平均池化操作,为1
×
1卷积,为sigmod激活。
[0009]作为本专利技术的一种优选技术方案,针对所述步骤A2中一个并行下采样模块、以及步骤A3中一个并行下采样模块,所述并行下采样模块结构相同,并行下采样模块具体为:首先针对并行下采样模块输入特征图并行经过步长为2的3
×
3卷积和步长为2的2
×
2最大池化进行下采样,并将获得的两特征图拼接获得并行下采样模块输出特征图;公式表示为:;其中,为最大池化操作,为拼接操作,为3
×
3卷积。
[0010]作为本专利技术的一种优选技术方案,所述基于空间注意力的金字塔池化模块具体为:首先基于空间注意力的金字塔池化模块输入特征图经过1
×
1卷积进行通道缩减,获得新本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力的轻量化非对称场景语义分割方法,其特征在于,执行以下步骤,步骤1:获取待处理图像;步骤2:针对待处理图像,利用预训练的以图像为输入,以该图像对应的语义分割图像为输出的语义分割模型,获得待处理图像对应的语义分割图像;所述语义分割模型包括编码器、解码器,待处理图像通过编码器提取获得其对应的特征图,解码器基于编码器提取的特征图获得待处理图像对应的语义分割图像;所述待处理图像通过编码器提取获得其对应的特征图,具体过程如下:步骤A1:待处理图像作为输入图像通过卷积下采样模块进行下采样和特征提取获得特征图,并且将输入图像使用平均池化下采样两倍获得特征图,进而将特征图和进行拼接获得特征图;步骤A2:特征图通过一个并行下采样模块进行下采样获得特征图,然后特征图顺次经过三个基于通道注意力的深度非对称模块依次对特征图进行特征提取,获得特征图,并且将输入图像使用平均池化下采样四倍获得特征图,进而将特征图、和进行拼接获得特征图;步骤A3:特征图通过一个并行下采样模块进行下采样获得特征图,然后特征图顺次经过八个基于通道注意力的深度非对称模块依次对特征图进行特征提取,得特征图,并且将输入图像使用平均池化下采样八倍获得特征图,进而将特征图、和进行拼接获得特征图;所述解码器基于编码器提取的特征图获得待处理图像对应的语义分割图像,具体过程如下:步骤B1:特征图通过基于空间注意力的金字塔池化模块进行多尺度信息提取获得特征图;步骤B2:特征图、特征图通过一个基于像素注意力的多尺度特征融合模块进行融合上采样获得特征图;步骤B3:特征图、特征图通过一个基于像素注意力的多尺度特征融合模块进行融合上采样处理获得特征图;步骤B4:特征图通过1
×
1卷积将该特征图通道处理成分割类别数,并使用双线性插值上采样进行上采样,获得待处理图像对应的语义分割图像。2.根据权利要求1所述一种基于注意力的轻量化非对称场景语义分割方法,其特征在于,所述卷积下采样模块具体为:首先卷积下采样模块输入图像经过一个步长为2的3
×
3卷积对输入图像进行下采样,然后顺序经过两个步长为1的3
×
3卷积来提取特征获得卷积下采样模块输出特征图,公式表示为:;
其中,为3
×
3卷积。3.根据权利要求1所述一种基于注意力的轻量化非对称场景语义分割方法,其特征在于,针对所述步骤A2中三个各基于通道注意力的深度非对称模块、以及步骤A3中八个基于通道注意力的深度非对称模块,基于通道注意力的深度非对称模块结构相同,基于通道注意力的深度非对称模块具体为:首先基于通道注意力的深度非对称模块输入特征图经过一个3
×
3卷积将通道数减半,然后分别通过并行的两个分支,一个分支使用非对称卷积分解的3
×
3深度卷积用来提取局部特征,另一个分支使用非对称卷积分解的3
×
3深度膨胀卷积用来提取上下文特征;进而基于与拼接获得,使用全局平均池化进行池化,然后顺序经过两个1
×
1卷积进行特征增强,接着使用sigmoid函数进行非线性激活获得通道注意力;最后将注意力与特征图逐元素相乘获得增强后的特征图,再将增强后的特征图与输入特征图相加,然后进行通道重排操作,获得深度非对称模块输出特征图;公式表示为:;其中,和为非对称卷积分解的3
×
3深度卷积获得的3
×
1和1
×
3的深度非对称卷积,和为非对称卷积分解的3
×
3深度膨胀卷积获得的3...

【专利技术属性】
技术研发人员:刘茜王存宝
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1