基于特征金字塔注意力和混合注意力级联的语义分割方法技术

技术编号:28055905 阅读:27 留言:0更新日期:2021-04-14 13:25
本发明专利技术公开了一种基于特征金字塔注意力和混合注意力级联的语义分割方法,包括:构建语义分割训练集;构建深度卷积神经网络,所述深度卷积神经网络包括编码器部分、2个特征金字塔注意力模块、混合注意力模块、解码分支、特征融合部分以及深度可分离卷积层;利用语义分割训练集对深度卷积神经网络进行训练,修正网络参数;将待分割街景道路场景图像输入训练好的深度卷积神经网络获得分割结果。本发明专利技术能较好的适应无人车设备对于精度和速度的需求。好的适应无人车设备对于精度和速度的需求。好的适应无人车设备对于精度和速度的需求。

【技术实现步骤摘要】
基于特征金字塔注意力和混合注意力级联的语义分割方法


[0001]本专利技术属于模式识别技术,具体为一种基于特征金字塔注意力和混合注意力级联的语义分割方法。

技术介绍

[0002]图像语义分割(semantic segmentation),也称场景解析(scene parsing),是目前计算机视觉中一个基础且具有挑战性的研究方向,其任务是给图像中的每个像素分配语义标签,将一个场景图像分割并解析为不同的图像区域,这些图像区域与语义类别相对应,包括连续对象(如天空、道路、草地)和离散对象(如人、汽车、自行车)等。
[0003]图像语义分割技术使计算器能够理解包含多类别物体的复杂图像,这方面的研究在无人车、机器人感知、医学图像等领域有广泛的应用价值。近年来,由于GPU计算和大量标注数据集的出现,深度学习这类依靠大量参数来拟合复杂特征的技术兴起,计算机视觉在图像识别领域有了突破性进展。自2015年Jon L提出FCN,引入对图像进行像素级密集预测的概念,其难点在于,密集类别预测需要保证从低分辨率特征图中生成准确的像素分类信息,同时又要兼顾从高分辨率特征图中获取足够多的位置信息;实际场景中,语义分割模型需要克服光照遮挡等复杂环境因素的影响;并且对物体存在的多尺度、多姿态现象具有良好的泛化能力。
[0004]目前的语义分割算法模型参数量过多,计算量多大,限制了分割技术的落地和应用。在对于实时性要求较高的场景中,例如自动驾驶领域,具备快速推理能力的语义分割方法显得尤为重要。现存的快速语义分割算法,通常仅保留了用于图像特征提取和恢复的简单编解码器结构,缺少对多尺度特征信息的充分利用,导致其分割精度过低,尤其对分割目标的边缘细节处理较差,难以满足实际应用对分割精度的要求。

技术实现思路

[0005]本专利技术的目的在于提供了一种基于特征金字塔注意力和混合注意力级联的语义分割方法。
[0006]实现本专利技术目的的技术方案为:一种基于特征金字塔注意力和混合注意力级联的语义分割方法,具体步骤为:
[0007]步骤1、构建语义分割训练集;
[0008]步骤2、构建深度卷积神经网络,所述深度卷积神经网络包括编码器部分、2个特征金字塔注意力模块、混合注意力模块、解码分支、特征融合部分以及深度可分离卷积层,所述编码器部分用于对输入图像进行编码获得四种尺寸的特征图,所述2个特征金字塔注意力模块分别对2中尺寸特征图进行多尺度和上下文信息捕获,所述特征融合部分用于将2个特征金字塔注意力模块获得特征图进行融合,所述混合注意力模块用于从特征图的空间和通道维度建立相关性表征;所述解码分支用于将混合注意力模块得到的特征图上采样2倍并与编码器部分产生的特征图合并;
[0009]步骤3、利用语义分割训练集对深度卷积神经网络进行训练,修正网络参数;
[0010]步骤4、将待分割街景道路场景图像输入训练好的深度卷积神经网络获得分割结果。
[0011]优选地,所述编码器部分的构建方式为:
[0012]移除MobileNetV2最后三层用作分类任务的全连接层和均值池化层;
[0013]将MobileNetV2中连续的瓶颈结构,根据所要产生的特征图的不同尺寸重新划分为4个连续的瓶颈结构。
[0014]优选地,每个瓶颈结构的输出特征图F(x)具体为:
[0015][0016]式中,n表示该瓶颈结构中残差块个数,x代表输入的特征图,其中A
i
表示残差块中的1
×
1线性变换卷积,N表示残差块中的3
×
3深度可分离卷积层,B
i
表示残差块中的1
×
1线性变换卷积。
[0017]优选地,所述特征金字塔注意力模块包括特征金字塔池化结构和注意力引导分支,所述特征金字塔池化结构用于捕获特征的多尺度和上下文信息,具体为:对输入特征图F,分别采用4种不同尺寸的均值池化策略,生成4组感受野大小不同的特征图,对每组特征图经过1
×
1卷积层,通过上采样恢复至和输入特征图相同尺寸,将4组特征图合并得到特征图A
pool
,将特征图A
pool
与输入特征图F合并,经过1
×
1卷积压缩通道至与输入特征图相同通道数,得到特征图A
PPM

[0018]所述注意力引导分支用于对全局特征信息进行聚合并提供对特征金字塔池化结构的特征引导,具体为:对输入特征图F,依次进行全局池化、1
×
1非线性卷积、sigmoid变换,得到注意力特征图A
attention_map
,并将注意力特征图A
attention_map
施加在输入特征图R上,得到注意力引导特征图A
ARM
=A
attention_map
·
F;
[0019]特征金字塔池化结构和注意力引导分支所得特征图作元素级相加作为特征金字塔注意力模块的输出。
[0020]优选地,所述混合注意力模块包括空间注意力模块和通道注意力模块,分别用于计算给定特征图的空间注意力矩阵和通道注意力矩阵。
[0021]优选地,计算给定特征图的空间注意力矩阵的具体过程为:
[0022]对于给定特征图A∈R
C*H*W
,经过一层线性卷积层,得两幅相同特征图B,C,{B,C}∈R
C*H*W
,均将其reshape为R
C*N
,N=H*W,R
C*H*W
表示特征图的通道数为C,尺寸为H*W,用特征图B点乘特征图C的转置,并进行softmax变换,得到注意力特征图S∈R
N*N
单个通道下的特征图中第i个位置点对于第j个位置点的概率权重:
[0023][0024]式中,B
i
代表特征图B中第i个位置的值,C
j
代表特征图C中第j个位置的值,N=H*W表示矩阵平铺后像素点的个数,s
ji
表示单个通道下的特征图中第i个位置点对于第j个位置点的概率权重;
[0025]对特征图A经过一层线性变换出特征图D∈R
C*H*W
并reshape为R
C*N
,并与得到的注意
力特征图S的转置作矩阵乘法并reshape为R
C*H*W
,得到空间注意力参数矩阵;根据注意力特征图得到空间注意力矩阵ES∈R
C*H*W

[0026][0027]式中,D
i
为特征图D在位置i上的元素,ES
j
为空间注意力矩阵在位置j上的元素,α为需要训练的附加权重,A
j
代表特征图A在位置j上的元素。
[0028]优选地,生成通道注意力矩阵的具体过程为:
[0029]对于给定特征图A∈R
C*H*W
,reshape至R
...

【技术保护点】

【技术特征摘要】
1.一种基于特征金字塔注意力和混合注意力级联的语义分割方法,其特征在于,具体步骤为:步骤1、构建语义分割训练集;步骤2、构建深度卷积神经网络,所述深度卷积神经网络包括编码器部分、2个特征金字塔注意力模块、混合注意力模块、解码分支、特征融合部分以及深度可分离卷积层,所述编码器部分用于对输入图像进行编码获得四种尺寸的特征图,所述2个特征金字塔注意力模块分别对2中尺寸特征图进行多尺度和上下文信息捕获,所述特征融合部分用于将2个特征金字塔注意力模块获得特征图进行融合,所述混合注意力模块用于从特征图的空间和通道维度建立相关性表征;所述解码分支用于将混合注意力模块得到的特征图上采样2倍并与编码器部分产生的特征图合并;步骤3、利用语义分割训练集对深度卷积神经网络进行训练,修正网络参数;步骤4、将待分割街景道路场景图像输入训练好的深度卷积神经网络获得分割结果。2.根据权利要求1所述的基于特征金字塔注意力和混合注意力级联的语义分割方法,其特征在于,所述编码器部分的构建方式为:移除MobileNetV2最后三层用作分类任务的全连接层和均值池化层;将MobileNetV2中连续的瓶颈结构,根据所要产生的特征图的不同尺寸重新划分为4个连续的瓶颈结构。3.根据权利要求2所述的基于特征金字塔注意力和混合注意力级联的语义分割方法,其特征在于,每个瓶颈结构的输出特征图F(x)具体为:式中,n表示该瓶颈结构中残差块个数,x代表输入的特征图,其中A
i
表示残差块中的1
×
1线性变换卷积,N表示残差块中的3
×
3深度可分离卷积层,B
i
表示残差块中的1
×
1线性变换卷积。4.根据权利要求1所述的基于特征金字塔注意力和混合注意力级联的语义分割方法,其特征在于,所述特征金字塔注意力模块包括特征金字塔池化结构和注意力引导分支,所述特征金字塔池化结构用于捕获特征的多尺度和上下文信息,具体为:对输入特征图F,分别采用4种不同尺寸的均值池化策略,生成4组感受野大小不同的特征图,对每组特征图经过1
×
1卷积层,通过上采样恢复至和输入特征图相同尺寸,将4组特征图合并得到特征图A
pool
,将特征图A
pool
与输入特征图F合并,经过1
×
1卷积压缩通道至与输入特征图相同通道数,得到特征图A
PPM
;所述注意力引导分支用于对全局特征信息进行聚合并提供对特征金字塔池化结构的特征引导,具体为:对输入特征图F,依次进行全局池化、1
×
1非线性卷积、sigmoid变换,得到注意力特征图A
attention_map
,并将注意力特征图A
attention_map
施加在输入特征图R上,得到注意力引导特征图A
ARM
=A
attention_map
·
F;特征金字塔池化结构和注意力引导分支所得特征图作元素级相加作为特征金字塔注意力模块的输出。5.根据权利要求1所述的基于特征金字塔注意力和混合注意力级联的语义分割方法,其特征在于,所述混合注意力模块包括空间注意力模块和通道注意力模块,分别用于计算
给定特征图的空间注意力矩阵和通道注意力矩阵。6.根据权利要求1所述的基于特征金字塔注意力和混合注意力级联的语义分割方法,其特征在于,计算给定特征图的空间注意力矩阵的具体过程为:对于给定特征图A∈R
C*H*W
,经过一层线性卷积层,得两幅相同特征图B,C,{B,C}∈R

【专利技术属性】
技术研发人员:徐锦浩王琼陈涛陆建峰
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1