基于双重注意力机制网络的实时语义分割方法技术

技术编号：38210632 阅读：19 留言：0更新日期：2023-07-21 17:02

本发明专利技术公开了一种基于双重注意力机制网络的实时语义分割方法，用于实时的语义分割场景。本发明专利技术的双重注意力机制网络采用双分支结构，分为细节分支和语义分支，细节分支负责空间细节，这是低级信息，空间细节使用宽通道和浅层网络，细节分支采用位置注意模块，提取空间细节信息；语义分支旨在捕获高级语义，采用窄通道和深层网络，其中语义分支采用编码解码的结构，同时嵌套通道注意模块，提取语义信息；然后采用双分支聚合模块将语义信息和空间细节信息聚合到一起。最后，上采样模块即为分类卷积，其输出为原始分辨率大小的最终预测结果，将预测结果与对应的语义标签进行对比，目标函数设置为交叉熵损失函数，就可得到训练好的网络模型。的网络模型。的网络模型。

全部详细技术资料下载

【技术实现步骤摘要】
基于双重注意力机制网络的实时语义分割方法

[0001]本专利技术涉及一种基于双重注意力机制网络的实时语义分割方法，属于计算机视觉领域。

技术介绍

[0002]深度神经网络正被用于现实世界的视觉识别应用，如车道线检测和生物医学图像分析、遥感图像等具有广阔应用前景的领域。图像语义分割是计算机视觉的一项基本任务，其目的是将与真实对象相对应的标签分配给图像中的所有像素。图像分割是高级驾驶辅助系统的基本任务之一，而自动驾驶是高级驾驶员辅助系统(ADAS)的最终目标。语义分割是计算机视觉领域的一个关键性问题。现阶段，其技术不断成熟，已经广泛见于二维视频和图像以及三维人体数据的问题解决中。智能驾驶，室内导航，肿瘤细胞测量，土地使用和覆盖分类等前沿科技问题的实现，都离不开图像语义分割算法。语义分割的出现，大大提升了图像分割的精细度，但其性能仍然需要进行提升、改进和优化，以面对日新月异，层出不穷的市场需求。
[0003]对于我们的研究方向实时语义分割，深度神经网络结构用于提取具有较强表达能力的深度特征，无法满足边缘设备的正常要求，这严重限制了深度神经网络在便携式设备上的发展和应用。为了节省存储空间，早期的轻量级模型已经在ImageNet分类和COCO对象检测方面进行了深入研究。例如，ShuffleNetV2在语义信息进入模块之前执行信道分割，从而将原始信道数减少一半。频道分割和频道混洗可以将shuffleNetV2的FPS增加100+，并将Top1错误减少2％。然而，在编码器的中间层，信道分割会丢失大量信息，这不利于获得更高的

【技术保护点】

【技术特征摘要】
1.一种基于双重注意力机制网络的实时语义分割方法，其特征在于，主要包括以下步骤：步骤1：构建双重注意力机制网络，包括位置注意力模块，通道注意力模块，空间细节分支，语义信息分支，上采样模块、下采样模块，特征聚合模块，特征提取模块及初始化卷积模块；步骤2：将输入的初始图像通过初始化卷积模块提取图像的特征，并且将初始图像的尺寸降为1/2；F
init
＝init(F
in
)
ꢀꢀꢀꢀ
(1)F
init
＝C3×3(C3×3(C3×3(F
in
)))
ꢀꢀꢀ
(2)其中，F
init
表示初始化后的特征图像，F
in
表示输入的初始图像，C
3*3
表示3*3卷积操作，init表示初始化模块，该初始化模块由三个3*3的卷积组成，其中第一个卷积的步长为2，将图像下采样，尺寸降为1/2；步骤3：将步骤2中初始化后的特征图F
init
输入到空间细节分支，通过三个3*3卷积提取空间细节特征，并生成特征图；然后，将特征图放入位置注意力模块，进行空间位置信息的提取；F
detail
＝f
SAM
{C
3*3
(C
3*3
(C
3*3
(F
init
)))}
ꢀꢀꢀ
(3)其中，F
detail
表示空间细节分支的特征图，F
init
是步骤2中生成的特征图，其尺寸是原始图片的1/2，C
3*3
表示3*3卷积操作，f
SAM
表示位置注意力模块；步骤4：将步骤2中初始化后的特征图F
init
输入到语义信息分支，首先通过通道注意力模块，然后采用特征提取模块进行特征提取，之后再进行一次通道注意力操作：其中，F
init
是步骤2生成的特征图，其尺寸是原始图片的1/2，表示特征提取模块，上标5表示该模块采用了5个f
CFN
特征提取模块，f
CAM
表示通道注意力模块，F1表示步骤4输出的特征图；步骤5：将步骤4生成的特征图F1进行下采样操作，然后将下采样之后的特征图进行特征提取和通道注意力操作：其中，F1是步骤4输出的特征图，其尺寸是原始图片的1/2；Down表示下采样模块，将尺寸下采样为原始尺寸的1/4，同时通道数由16升为64；f
CAM
表示通道注意力模块，表示特征提取模块，上标5表示该模块采用了5个f
CFN
特征提取模块，F2表示步骤5输出的特征图；步骤6：将步骤5输出的特征图F2进行下采样操作，然后将下采样之后的特征图进行特征提取和通道注意力操作，通过下采样操作，特征图尺寸降为原始尺寸的1/8，同时通道数由64升为128：其中，F2表示步骤5产生的特征图，Down表示下采样模块，表示特征提取模块，上标16表示该模块采用了16个f
CFN
特征提取模块，F3表示步骤6输出的特征图；
步骤7：将步骤6输出的特征图F3进行上采样操作，然后将上采样之后的特征图进行特征提取和通道注意力操作，通过上采样操作，特征图尺寸升为原始尺寸的1/4，同时通道数由128降为64；其中，Up为上采样操作，F3为步骤6输出的特征图，表示特征提取模块，上标3表示该模块采用了3个f
CFN
特征提取模块，f
CAM
表示通道注意力模块，F4表示步骤7输出的特征图；步骤8：将步骤7输出的特征图F4进行上采样操作，然后将上采样之后的特征图进行特征提取和通道注意力操作，通过上采样操作，特征图尺寸升为原始尺寸的1/2，同时通道数由64降为32；其中，表示特征提取模块，上标3表示该模块采用了3个f
CFN
特征提取模块，Up表示上采样操作，f
CAM
表示通道注意力模块，F5表示步骤8输出的特征图；步骤9：将步骤8和步骤3中的特征图采用特征聚合模块进行特征聚合，其中特征聚合模块中包含3*3卷积和特征图相乘的操作；F
out
＝C
3*3
(F5)*F
detail
+C
3*3
(F
detail
)*F
detail
ꢀꢀꢀ
(19)其中，F5表示步骤8输出的特征图，即语义分支产生的最终特征图，F
detail
表示步骤3输出的特征图，即细节分支产生的特征图；*表示特征图之间的逐像素点相乘，C
3*3
表示3*3卷积，F
out
表示最终输出的特征图。2.根据权利要求1所述的实时语义分割方法，其特征在于，步骤3中还采用以下公式：F
mean
＝f
mean
(F
in
)
ꢀꢀꢀꢀ
(4)F
max
＝f
max
(F
in
)
ꢀꢀꢀꢀ
(5)F
cat
＝CAT(F
mean
，F
max
)
ꢀꢀꢀꢀ
(6)F
SAM
＝f
sigmoid
(C
1*1
(F
cat
))<...

【专利技术属性】
技术研发人员：徐大伟，高广谓，吴飞，岳东，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人