基于上下文注意力机制和信息融合的实时语义分割方法技术

技术编号:27773063 阅读:39 留言:0更新日期:2021-03-23 12:57
本发明专利技术公开了一种基于上下文注意力机制和信息融合的实时语义分割方法,首先构建实时语义分割网络,对预先获取的数据集中的图像以及对应的标签进行预处理,再输入到所搭建的网络中进行训练;网络中,输入图像经过三组单独的降采样模块,使其分辨率分辨变为原来的1//2、1/4和1/8,三个不同尺寸的特征图分别与后续的主干网络不同阶段的特征进行特征融合;每个阶段特征融合之后,进入到注意力模块;融合后的特征经过分类的卷积操作输出最终的预测结果并与对应语义标注图像进行对比,计算交叉熵损失函数作为目标函数,从而得到训练好的网络模型。本发明专利技术本发明专利技术不仅保证了语义分割的高精度,又保证了高效的推理速度以及适合边界设备的内存容量。

【技术实现步骤摘要】
基于上下文注意力机制和信息融合的实时语义分割方法
本专利技术属于计算机视觉、模式识别领域,具体涉及一种基于上下文注意力机制和信息融合的实时语义分割方法。
技术介绍
语义分割是当今计算机视觉领域的关键问题之一。它是在图像像素级别上分类,属于同一类的像素都要被归为一类。因此上下文语义信息对于语义分割来说,非常重要。在实际中,虚拟现实、人机交互以及自动驾驶等都会运用到语义分割技术,准确理解周围场景对实际应用的决策有重要影响。当前最佳的图像语义分割方法都是基于深度卷积神经网络的方法来实现的,并且都是基于编码解码的架构。编码器是一个图像降采样过程,负责抽取图像的语义信息,编码结束后紧接着就是解码器,解码器就是一个图像上采样过程,负责对降采样得到的图像特征进行上采样恢复到输入图像原始维度。总体网络结构可以大致分为两类:深度网络结构方法和轻量化网络结构方法。深度网络结构方法,运用VGGNet,ResNet等作为主干网络,它们的重心是在提高模型的分割精度而不是计算效率上,模型有效性绝大程度上取决于网络深度和宽度,因此需要大量的参数和操作从而需要耗费大量本文档来自技高网...

【技术保护点】
1.一种基于上下文注意力机制和信息融合的实时语义分割方法,其特征在于,包括以下步骤:/n(1)构建实时语义分割网络,所述网络包括初始模块、注意力模块、特征提取模块、特征融合模块;/n(2)对预先获取的数据集中的图像以及对应的标签进行预处理,再输入到所搭建的网络中进行训练;输入图像经过3次卷积使其分辨率变为原来的1/2,同时,输入图像经过三组单独的降采样模块,使其分辨率分辨变为原来的1//2、1/4和1/8,这三个不同尺寸的特征图分别与后续的主干网络不同阶段的特征进行特征融合;/n(3)每个阶段特征融合之后,进入到注意力模块;/n(4)经过注意力模块输出后的特征图,进入到特征提取模块中;所述特征...

【技术特征摘要】
1.一种基于上下文注意力机制和信息融合的实时语义分割方法,其特征在于,包括以下步骤:
(1)构建实时语义分割网络,所述网络包括初始模块、注意力模块、特征提取模块、特征融合模块;
(2)对预先获取的数据集中的图像以及对应的标签进行预处理,再输入到所搭建的网络中进行训练;输入图像经过3次卷积使其分辨率变为原来的1/2,同时,输入图像经过三组单独的降采样模块,使其分辨率分辨变为原来的1//2、1/4和1/8,这三个不同尺寸的特征图分别与后续的主干网络不同阶段的特征进行特征融合;
(3)每个阶段特征融合之后,进入到注意力模块;
(4)经过注意力模块输出后的特征图,进入到特征提取模块中;所述特征图分为两个分支,第一条分支继续进行下采样操作以及卷积特征提取;第二条分支经过上采样以及注意力模块后输出到预测分类操作之前进行特征融合;
(5)融合后的特征经过分类的卷积操作输出最终的预测结果并与对应语义标注图像进行对比,计算交叉熵损失函数作为目标函数,从而得到训练好的网络模型;
(6)利用训练好的模型来预测待测图像语义分割结果。


2.根据权利要求1所述的基于上下文注意力机制和信息融合的实时语义分割方法,其特征在于,所述步骤(2)的实现过程如下:
输入图像先经过连续三次3*3卷积核的卷积操作提取初始图像特征并将输入图像分辨率变为1/2:
Fcout=C3x3(C3x3(C3x3(Fin)))(1)
其中,Fin表示输入图像,C3x3表示卷积核为3x3的卷积操作,Fcout表示连续3三次卷积后的输出;同时将初始输入图像输入到三个单独降采样率不同的降采样模块中,将输入图像的分辨率分别降采样为原来的1/2、1/4、1/8,用于与后续主干网络中不同阶段提取的图像特征进行融合,以充分利用上下文语义信息:
F1=Down1(Fin)(2)
F2=Down2(Fin)(3)
F3=Down3(Fin)(4)
其中,Down1,Down2,Down3表示降采样率分别为2,4,8的降采样模块,F1,F2,F3表示得到的1/2,1/4,1/8特征图;初始模块最终输出为三次卷积后得到的特征图与1/2特征图的级联:
Finitial=Concat(Fcout,F1)(5)
其中,Finitial表示初始模块最终输出,Concat表示Concatenate级联操作。


3.根据权利要求1所述的基于上下文注意力机制和信息融合的实时语义分割方法,其特征在于,所述步骤(4)的实现过程如下:
经过注意力模块输出后的特征图分为两条分支,一条分支是继续主干网络的特征提取,经过一个下采样模块以及若干深度不对称卷积模块;其中,下采样模块由步长为2的3x3卷积和一个2x2...

【专利技术属性】
技术研发人员:徐国安高广谓吴飞邵昊岳东
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1