基于双重注意力机制网络的实时语义分割方法技术

技术编号:38210632 阅读:19 留言:0更新日期:2023-07-21 17:02
本发明专利技术公开了一种基于双重注意力机制网络的实时语义分割方法,用于实时的语义分割场景。本发明专利技术的双重注意力机制网络采用双分支结构,分为细节分支和语义分支,细节分支负责空间细节,这是低级信息,空间细节使用宽通道和浅层网络,细节分支采用位置注意模块,提取空间细节信息;语义分支旨在捕获高级语义,采用窄通道和深层网络,其中语义分支采用编码解码的结构,同时嵌套通道注意模块,提取语义信息;然后采用双分支聚合模块将语义信息和空间细节信息聚合到一起。最后,上采样模块即为分类卷积,其输出为原始分辨率大小的最终预测结果,将预测结果与对应的语义标签进行对比,目标函数设置为交叉熵损失函数,就可得到训练好的网络模型。的网络模型。的网络模型。

【技术实现步骤摘要】
基于双重注意力机制网络的实时语义分割方法


[0001]本专利技术涉及一种基于双重注意力机制网络的实时语义分割方法,属于计算机视觉领域。

技术介绍

[0002]深度神经网络正被用于现实世界的视觉识别应用,如车道线检测和生物医学图像分析、遥感图像等具有广阔应用前景的领域。图像语义分割是计算机视觉的一项基本任务,其目的是将与真实对象相对应的标签分配给图像中的所有像素。图像分割是高级驾驶辅助系统的基本任务之一,而自动驾驶是高级驾驶员辅助系统(ADAS)的最终目标。语义分割是计算机视觉领域的一个关键性问题。现阶段,其技术不断成熟,已经广泛见于二维视频和图像以及三维人体数据的问题解决中。智能驾驶,室内导航,肿瘤细胞测量,土地使用和覆盖分类等前沿科技问题的实现,都离不开图像语义分割算法。语义分割的出现,大大提升了图像分割的精细度,但其性能仍然需要进行提升、改进和优化,以面对日新月异,层出不穷的市场需求。
[0003]对于我们的研究方向实时语义分割,深度神经网络结构用于提取具有较强表达能力的深度特征,无法满足边缘设备的正常要求,这严重限制了深度神经网络在便携式设备上的发展和应用。为了节省存储空间,早期的轻量级模型已经在ImageNet分类和COCO对象检测方面进行了深入研究。例如,ShuffleNetV2在语义信息进入模块之前执行信道分割,从而将原始信道数减少一半。频道分割和频道混洗可以将shuffleNetV2的FPS增加100+,并将Top1错误减少2%。然而,在编码器的中间层,信道分割会丢失大量信息,这不利于获得更高的精度,因此在不同阶段使用不同的分离方法有利于模型获得更好的结果。深度可分离卷积可以压缩模型的参数,目前被广泛应用。
[0004]基于深度学习方法的语义分割取得了巨大进展,其中一个比较成熟的研究方向就是通过增加网络层级、增大网络复杂度提升网络分割精度,如利用VGG,GoogleNet,ResNet101等深度网络作为主干(backbone),再进行后续优化操作。这些模型通过堆叠大量卷层来换取性能的提升,然而伴随着智能移动设备的发展,终端设备对网络模型、算法复杂度以及运行效率提出了更高的要求,因而基于深度学习的语义分割另一研究方向就是通过降低模型参数以及复杂度来提升网络效率,适应现实场景需求。

技术实现思路

[0005]本专利技术的目的在于提供一种基于双重注意力机制网络的实时语义分割方法,可以在降低网络参数量的同时提高分割精度。
[0006]为实现上述目的,本专利技术提供了一种基于双重注意力机制网络的实时语义分割方法,主要包括以下步骤:
[0007]步骤1:构建双重注意力机制网络,包括位置注意力模块,通道注意力模块,空间细节分支,语义信息分支,上采样模块、下采样模块,特征聚合模块,特征提取模块及初始化卷
积模块;
[0008]步骤2:将输入的初始图像通过初始化卷积模块提取图像的特征,并且将初始图像的尺寸降为1/2;
[0009]F
init
=init(F
in
)
ꢀꢀꢀ
(1)
[0010]F
init
=C3×3(C3×3(C3×3(F
in
)))
ꢀꢀꢀ
(2)
[0011]其中,F
init
表示初始化后的特征图像,F
in
表示输入的初始图像,C
3*3
表示3*3卷积操作,init表示初始化模块,该初始化模块由三个3*3的卷积组成,其中第一个卷积的步长为2,将图像下采样,尺寸降为1/2;
[0012]步骤3:将步骤2中初始化后的特征图F
init
输入到空间细节分支,通过三个3*3卷积提取空间细节特征,并生成特征图;然后,将特征图放入位置注意力模块,进行空间位置信息的提取;
[0013]F
detail
=f
SAM
{C
3*3
(C
3*3
(C
3*3
(F
init
)))}
ꢀꢀꢀ
(3)
[0014]其中,F
detail
表示空间细节分支的特征图,F
init
是步骤2中生成的特征图,其尺寸是原始图片的1/2,C
3*3
表示3*3卷积操作,f
SAM
表示位置注意力模块;
[0015]步骤4:将步骤2中初始化后的特征图F
init
输入到语义信息分支,首先通过通道注意力模块,然后采用特征提取模块进行特征提取,之后再进行一次通道注意力操作:
[0016][0017]其中,F
init
是步骤2生成的特征图,其尺寸是原始图片的1/2,表示特征提取模块,上标5表示该模块采用了5个f
CFN
特征提取模块,f
CAM
表示通道注意力模块,F1表示步骤4输出的特征图;
[0018]步骤5:将步骤4生成的特征图F1进行下采样操作,然后将下采样之后的特征图进行特征提取和通道注意力操作:
[0019][0020]其中,F1是步骤4输出的特征图,其尺寸是原始图片的1/2;Down表示下采样模块,将尺寸下采样为原始尺寸的1/4,同时通道数由16升为64;f
CAM
表示通道注意力模块,表示特征提取模块,上标5表示该模块采用了5个f
CFN
特征提取模块,F2表示步骤5输出的特征图;
[0021]步骤6:将步骤5输出的特征图F2进行下采样操作,然后将下采样之后的特征图进行特征提取和通道注意力操作,通过下采样操作,特征图尺寸降为原始尺寸的1/8,同时通道数由64升为128:
[0022][0023]其中,F2表示步骤5产生的特征图,Down表示下采样模块,表示特征提取模块,上标16表示该模块采用了16个f
CFN
特征提取模块,F3表示步骤6输出的特征图;
[0024]步骤7:将步骤6输出的特征图F3进行上采样操作,然后将上采样之后的特征图进行特征提取和通道注意力操作,通过上采样操作,特征图尺寸升为原始尺寸的1/4,同时通道数由128降为64;
[0025][0026]其中,Up为上采样操作,F3为步骤6输出的特征图,表示特征提取模块,上标3表示该模块采用了3个f
CFN
特征提取模块,f
CAM
表示通道注意力模块,F4表示步骤7输出的特征图;
[0027]步骤8:将步骤7输出的特征图F4进行上采样操作,然后将上采样之后的特征图进行特征提取和通道注意力操作,通过上采样操作,特征图尺寸升为原始尺寸的1/2,同时通道数由64降为32;
[0028][0029]其中,表示特征提取模块,上标3表示该模块采用了3个f
CFN
特征提取模块,Up表示上采样操作,f
CAM
...

【技术保护点】

【技术特征摘要】
1.一种基于双重注意力机制网络的实时语义分割方法,其特征在于,主要包括以下步骤:步骤1:构建双重注意力机制网络,包括位置注意力模块,通道注意力模块,空间细节分支,语义信息分支,上采样模块、下采样模块,特征聚合模块,特征提取模块及初始化卷积模块;步骤2:将输入的初始图像通过初始化卷积模块提取图像的特征,并且将初始图像的尺寸降为1/2;F
init
=init(F
in
)
ꢀꢀꢀꢀ
(1)F
init
=C3×3(C3×3(C3×3(F
in
)))
ꢀꢀꢀ
(2)其中,F
init
表示初始化后的特征图像,F
in
表示输入的初始图像,C
3*3
表示3*3卷积操作,init表示初始化模块,该初始化模块由三个3*3的卷积组成,其中第一个卷积的步长为2,将图像下采样,尺寸降为1/2;步骤3:将步骤2中初始化后的特征图F
init
输入到空间细节分支,通过三个3*3卷积提取空间细节特征,并生成特征图;然后,将特征图放入位置注意力模块,进行空间位置信息的提取;F
detail
=f
SAM
{C
3*3
(C
3*3
(C
3*3
(F
init
)))}
ꢀꢀꢀ
(3)其中,F
detail
表示空间细节分支的特征图,F
init
是步骤2中生成的特征图,其尺寸是原始图片的1/2,C
3*3
表示3*3卷积操作,f
SAM
表示位置注意力模块;步骤4:将步骤2中初始化后的特征图F
init
输入到语义信息分支,首先通过通道注意力模块,然后采用特征提取模块进行特征提取,之后再进行一次通道注意力操作:其中,F
init
是步骤2生成的特征图,其尺寸是原始图片的1/2,表示特征提取模块,上标5表示该模块采用了5个f
CFN
特征提取模块,f
CAM
表示通道注意力模块,F1表示步骤4输出的特征图;步骤5:将步骤4生成的特征图F1进行下采样操作,然后将下采样之后的特征图进行特征提取和通道注意力操作:其中,F1是步骤4输出的特征图,其尺寸是原始图片的1/2;Down表示下采样模块,将尺寸下采样为原始尺寸的1/4,同时通道数由16升为64;f
CAM
表示通道注意力模块,表示特征提取模块,上标5表示该模块采用了5个f
CFN
特征提取模块,F2表示步骤5输出的特征图;步骤6:将步骤5输出的特征图F2进行下采样操作,然后将下采样之后的特征图进行特征提取和通道注意力操作,通过下采样操作,特征图尺寸降为原始尺寸的1/8,同时通道数由64升为128:其中,F2表示步骤5产生的特征图,Down表示下采样模块,表示特征提取模块,上标16表示该模块采用了16个f
CFN
特征提取模块,F3表示步骤6输出的特征图;
步骤7:将步骤6输出的特征图F3进行上采样操作,然后将上采样之后的特征图进行特征提取和通道注意力操作,通过上采样操作,特征图尺寸升为原始尺寸的1/4,同时通道数由128降为64;其中,Up为上采样操作,F3为步骤6输出的特征图,表示特征提取模块,上标3表示该模块采用了3个f
CFN
特征提取模块,f
CAM
表示通道注意力模块,F4表示步骤7输出的特征图;步骤8:将步骤7输出的特征图F4进行上采样操作,然后将上采样之后的特征图进行特征提取和通道注意力操作,通过上采样操作,特征图尺寸升为原始尺寸的1/2,同时通道数由64降为32;其中,表示特征提取模块,上标3表示该模块采用了3个f
CFN
特征提取模块,Up表示上采样操作,f
CAM
表示通道注意力模块,F5表示步骤8输出的特征图;步骤9:将步骤8和步骤3中的特征图采用特征聚合模块进行特征聚合,其中特征聚合模块中包含3*3卷积和特征图相乘的操作;F
out
=C
3*3
(F5)*F
detail
+C
3*3
(F
detail
)*F
detail
ꢀꢀꢀ
(19)其中,F5表示步骤8输出的特征图,即语义分支产生的最终特征图,F
detail
表示步骤3输出的特征图,即细节分支产生的特征图;*表示特征图之间的逐像素点相乘,C
3*3
表示3*3卷积,F
out
表示最终输出的特征图。2.根据权利要求1所述的实时语义分割方法,其特征在于,步骤3中还采用以下公式:F
mean
=f
mean
(F
in
)
ꢀꢀꢀꢀ
(4)F
max
=f
max
(F
in
)
ꢀꢀꢀꢀ
(5)F
cat
=CAT(F
mean
,F
max
)
ꢀꢀꢀꢀ
(6)F
SAM
=f
sigmoid
(C
1*1
(F
cat
))<...

【专利技术属性】
技术研发人员:徐大伟高广谓吴飞岳东
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1