【技术实现步骤摘要】
基于双重注意力机制网络的实时语义分割方法
[0001]本专利技术涉及一种基于双重注意力机制网络的实时语义分割方法,属于计算机视觉领域。
技术介绍
[0002]深度神经网络正被用于现实世界的视觉识别应用,如车道线检测和生物医学图像分析、遥感图像等具有广阔应用前景的领域。图像语义分割是计算机视觉的一项基本任务,其目的是将与真实对象相对应的标签分配给图像中的所有像素。图像分割是高级驾驶辅助系统的基本任务之一,而自动驾驶是高级驾驶员辅助系统(ADAS)的最终目标。语义分割是计算机视觉领域的一个关键性问题。现阶段,其技术不断成熟,已经广泛见于二维视频和图像以及三维人体数据的问题解决中。智能驾驶,室内导航,肿瘤细胞测量,土地使用和覆盖分类等前沿科技问题的实现,都离不开图像语义分割算法。语义分割的出现,大大提升了图像分割的精细度,但其性能仍然需要进行提升、改进和优化,以面对日新月异,层出不穷的市场需求。
[0003]对于我们的研究方向实时语义分割,深度神经网络结构用于提取具有较强表达能力的深度特征,无法满足边缘设备的正常要求,这严重限制了深度神经网络在便携式设备上的发展和应用。为了节省存储空间,早期的轻量级模型已经在ImageNet分类和COCO对象检测方面进行了深入研究。例如,ShuffleNetV2在语义信息进入模块之前执行信道分割,从而将原始信道数减少一半。频道分割和频道混洗可以将shuffleNetV2的FPS增加100+,并将Top1错误减少2%。然而,在编码器的中间层,信道分割会丢失大量信息,这不利于获得更高的
【技术保护点】
【技术特征摘要】
1.一种基于双重注意力机制网络的实时语义分割方法,其特征在于,主要包括以下步骤:步骤1:构建双重注意力机制网络,包括位置注意力模块,通道注意力模块,空间细节分支,语义信息分支,上采样模块、下采样模块,特征聚合模块,特征提取模块及初始化卷积模块;步骤2:将输入的初始图像通过初始化卷积模块提取图像的特征,并且将初始图像的尺寸降为1/2;F
init
=init(F
in
)
ꢀꢀꢀꢀ
(1)F
init
=C3×3(C3×3(C3×3(F
in
)))
ꢀꢀꢀ
(2)其中,F
init
表示初始化后的特征图像,F
in
表示输入的初始图像,C
3*3
表示3*3卷积操作,init表示初始化模块,该初始化模块由三个3*3的卷积组成,其中第一个卷积的步长为2,将图像下采样,尺寸降为1/2;步骤3:将步骤2中初始化后的特征图F
init
输入到空间细节分支,通过三个3*3卷积提取空间细节特征,并生成特征图;然后,将特征图放入位置注意力模块,进行空间位置信息的提取;F
detail
=f
SAM
{C
3*3
(C
3*3
(C
3*3
(F
init
)))}
ꢀꢀꢀ
(3)其中,F
detail
表示空间细节分支的特征图,F
init
是步骤2中生成的特征图,其尺寸是原始图片的1/2,C
3*3
表示3*3卷积操作,f
SAM
表示位置注意力模块;步骤4:将步骤2中初始化后的特征图F
init
输入到语义信息分支,首先通过通道注意力模块,然后采用特征提取模块进行特征提取,之后再进行一次通道注意力操作:其中,F
init
是步骤2生成的特征图,其尺寸是原始图片的1/2,表示特征提取模块,上标5表示该模块采用了5个f
CFN
特征提取模块,f
CAM
表示通道注意力模块,F1表示步骤4输出的特征图;步骤5:将步骤4生成的特征图F1进行下采样操作,然后将下采样之后的特征图进行特征提取和通道注意力操作:其中,F1是步骤4输出的特征图,其尺寸是原始图片的1/2;Down表示下采样模块,将尺寸下采样为原始尺寸的1/4,同时通道数由16升为64;f
CAM
表示通道注意力模块,表示特征提取模块,上标5表示该模块采用了5个f
CFN
特征提取模块,F2表示步骤5输出的特征图;步骤6:将步骤5输出的特征图F2进行下采样操作,然后将下采样之后的特征图进行特征提取和通道注意力操作,通过下采样操作,特征图尺寸降为原始尺寸的1/8,同时通道数由64升为128:其中,F2表示步骤5产生的特征图,Down表示下采样模块,表示特征提取模块,上标16表示该模块采用了16个f
CFN
特征提取模块,F3表示步骤6输出的特征图;
步骤7:将步骤6输出的特征图F3进行上采样操作,然后将上采样之后的特征图进行特征提取和通道注意力操作,通过上采样操作,特征图尺寸升为原始尺寸的1/4,同时通道数由128降为64;其中,Up为上采样操作,F3为步骤6输出的特征图,表示特征提取模块,上标3表示该模块采用了3个f
CFN
特征提取模块,f
CAM
表示通道注意力模块,F4表示步骤7输出的特征图;步骤8:将步骤7输出的特征图F4进行上采样操作,然后将上采样之后的特征图进行特征提取和通道注意力操作,通过上采样操作,特征图尺寸升为原始尺寸的1/2,同时通道数由64降为32;其中,表示特征提取模块,上标3表示该模块采用了3个f
CFN
特征提取模块,Up表示上采样操作,f
CAM
表示通道注意力模块,F5表示步骤8输出的特征图;步骤9:将步骤8和步骤3中的特征图采用特征聚合模块进行特征聚合,其中特征聚合模块中包含3*3卷积和特征图相乘的操作;F
out
=C
3*3
(F5)*F
detail
+C
3*3
(F
detail
)*F
detail
ꢀꢀꢀ
(19)其中,F5表示步骤8输出的特征图,即语义分支产生的最终特征图,F
detail
表示步骤3输出的特征图,即细节分支产生的特征图;*表示特征图之间的逐像素点相乘,C
3*3
表示3*3卷积,F
out
表示最终输出的特征图。2.根据权利要求1所述的实时语义分割方法,其特征在于,步骤3中还采用以下公式:F
mean
=f
mean
(F
in
)
ꢀꢀꢀꢀ
(4)F
max
=f
max
(F
in
)
ꢀꢀꢀꢀ
(5)F
cat
=CAT(F
mean
,F
max
)
ꢀꢀꢀꢀ
(6)F
SAM
=f
sigmoid
(C
1*1
(F
cat
))<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。