一种基于多感受野上下文语义信息的图像语义分割方法技术

技术编号:33121660 阅读:22 留言:0更新日期:2022-04-17 00:21
本发明专利技术公开了一种基于多感受野上下文语义信息的图像语义分割方法,包括步骤一、将输入图像通过卷积操作转换成像素矩阵;二、采用不同扩张率的扩张卷积将同一个像素矩阵转换为多个具有多感受野上下文语义信息的特征图;三、具有多感受野上下文语义信息的特征图分别通过不同子网中的转换器编码器进行特征提取和下采样处理,得到多个具有不同感受野的下采样特征图;四、下采样特征图通过解码器进行逐步上采样处理,得到相同尺寸和维度的特征图,并生成最终的特征融合图;五、特征融合图通过卷积神经网络完成图像分割的预测。本发明专利技术能够有效应用在图像语义分割中,不会丢失深层的低分辨率特征和细粒度特征,消耗内存小,效果显著,便于推广。便于推广。便于推广。

【技术实现步骤摘要】
一种基于多感受野上下文语义信息的图像语义分割方法


[0001]本专利技术属于图像识别
,具体涉及一种基于多感受野上下文语义信息的图像语义分割方法。

技术介绍

[0002]图像语义分割是图像分析的基础,也是很多应用的基础,例如在自动驾驶系统中的物体识别、无人机应用以及穿戴式设备应用中举足轻重。图像是由像素组成,而“语义分割”顾名思义就是将像素按照图像中表达语义含义的不同进行分组或分割。图像语义分割的目标是将图像的每个像素所属类别进行标注。因此,语义分割是指像素级别的识别图像中的目标组织,即标注出图像中每个像素所属的对象类别。
[0003]在图像分割的发展过程中出现了很多分割方法,例如:基于简单的像素级别的“阈值法”(Thresholding methods)和基于像素聚类的分割方法(Clustering

based segmentation methods),以及“图划分”的分割方法,但是这些分割方法难以满足现在高精度分割性能的要求。随着以全卷积神经网络(Fully convolutional networks,FCN)为代表的一系列基于卷积神经网络的语义分割方法的相继提出,目前,先进的图像语义分割模型的架构几乎都是基于卷积网络的,且通常遵循一种模式:将网络分为一个编码器和一个解码器,编码器通常基于图像分类网络,也称为主干,它是在一个大型语料库(如ImageNet)上进行预训练的;解码器聚合来自编码器的特征,并将其转换为最终的特征图进行预测。以往的分割架构研究通常关注解码器及其聚合策略,但实际上图像特征的尺寸和模型的主干架构对整个模型来说非常关键,因为在编码器中丢失的信息不可能在解码器中恢复。除此之外,现有模型对不同特征信息的获取,以及编码器中特征的提取和筛选方面的改进关注不足。
[0004]现有技术中,编码器通过卷积、池化等操作逐步向下采样输入图像,提取特征信息,下采样使模型的感受野逐渐增加,将低级特征抽象为高级特征。但是,下采样操作有明显的缺点,在像素级别的预测任务中尤其突出,会导致低分辨率特征和细粒度特征在模型的更深层被丢失,而这些丢失的信息很难在解码器中恢复。虽然像素特征分辨率和粒度对于某些任务(如图像分类)可能无关紧要,但它们对于以像素为基础的分割任务至关重要,在理想情况下,模型在下采样的过程中应尽量减少特征信息的损失,也就是能够使输入图像的分辨率上等于或接近于输入图像的分辨率,从表面看不到输入图像和输出图像的区别。
[0005]另外,现有技术中,卷积与非线性模块一起构成了图像分析网络的基本计算单元,卷积是有限制感受野的线性算子,单个卷积的有限的接受域和有限的表达能力需要序列叠加到非常深的架构中,以获得足够广泛的背景和足够高的表征能力。然而,这需要生产许多中间表征,消耗大量的内存。为了使内存消耗保持在现有计算机体系结构可行的水平上,降低中间表示的采样是必要的。

技术实现思路

[0006]本专利技术所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于多感受野上下文语义信息的图像语义分割方法,其方法步骤简单,设计合理,实现方便,能够有效应用在图像语义分割中,采用编码器与解码器架构,采用多感受野的扩展卷积从同一个图像中获取不同尺寸分辨率的特征,并利用转换器作为编码器的基本计算构建块,重组为各种分辨率下的类图像特征表示,并使用卷积解码器逐步将这些特征表示组合到最终的像素预测中,完成目标组织的识别与分割,同时降低了中间表征,不会丢失深层的低分辨率特征和细粒度特征,消耗内存小,效果显著,便于推广。
[0007]为解决上述技术问题,本专利技术采用的技术方案是:一种基于多感受野上下文语义信息的图像语义分割方法,包括以下步骤:
[0008]步骤一、将输入图像通过卷积操作转换成像素矩阵;
[0009]步骤二、采用不同扩张率的扩张卷积将同一个像素矩阵转换为多个具有多感受野上下文语义信息的特征图;
[0010]步骤三、所述具有多感受野上下文语义信息的特征图分别通过不同子网中的转换器编码器进行特征提取和下采样处理,得到多个具有不同感受野的下采样特征图;
[0011]步骤四、所述下采样特征图通过解码器进行逐步上采样处理,得到相同尺寸和维度的特征图,并生成最终的特征融合图;
[0012]步骤五、所述特征融合图通过卷积神经网络完成图像分割的预测。
[0013]上述的一种基于多感受野上下文语义信息的图像语义分割方法,步骤二中所述扩张卷积的输出为:
[0014][0015]其中,y
i
表示扩张卷积第i个输出,扩张卷积的卷积核大小为k*k,扩张率为r,x
i
为转换器子网络前的扩张卷积的第i个输入特征映射,m为卷积核大小为k*k的滤波器矩阵w[k]的长度。
[0016]上述的一种基于多感受野上下文语义信息的图像语义分割方法,步骤三中所述转换器包括多头自注意力机制模型和多层感知器模型,所述多头自注意力机制模型和多层感知器模型的输入均进行归一化。
[0017]上述的一种基于多感受野上下文语义信息的图像语义分割方法,所述多头自注意力机制模型的输出为:
[0018]Y
out
=concat[y1,y2,...y
i
...y
h
‑1][0019]y
i
=Attentation(qW
iq
,jW
ij
,dW
id
)
[0020]其中,Y
out
∈R
q*j*d
,concat[]表示连接操作,i∈[1,h

1],h为自注意块编号,每个块都有自己的一组可学习权重矩阵(W
iq
,W
ij
,W
id
),W为投影的权重矩阵,W∈R
q*j*d
,q,j,d为第一特征图的三维维度。
[0021]上述的一种基于多感受野上下文语义信息的图像语义分割方法,所述多层感知器模型的输出端设置有重塑层,所述重塑层包括用于更改输入数据维度的reshape层。
[0022]上述的一种基于多感受野上下文语义信息的图像语义分割方法,步骤四中所述解码器进行逐步上采样,得到相同尺寸和维度的特征融合图的具体过程包括编码器与解码器之间的特征融合和解码器输出特征融合。
[0023]上述的一种基于多感受野上下文语义信息的图像语义分割方法,所述编码器与解码器之间特征融合的具体过程包括:将编码器和解码器对应层之间的特征图通过skip

connection操作进行融合,通过skip

connection跳跃连接,减少梯度消失和网络退化。
[0024]上述的一种基于多感受野上下文语义信息的图像语义分割方法,所述解码器输出特征融合的具体过程包括:解码器将来自不同编码器的特征图逐层且连续的上采样,输出具有相同的尺寸和维度的特征,再通过con本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多感受野上下文语义信息的图像语义分割方法,其特征在于,包括以下步骤:步骤一、将输入图像通过卷积操作转换成像素矩阵;步骤二、采用不同扩张率的扩张卷积将同一个像素矩阵转换为多个具有多感受野上下文语义信息的特征图;步骤三、所述具有多感受野上下文语义信息的特征图分别通过不同子网中的转换器编码器进行特征提取和下采样处理,得到多个具有不同感受野的下采样特征图;步骤四、所述下采样特征图通过解码器进行逐步上采样处理,得到相同尺寸和维度的特征图,并生成最终的特征融合图;步骤五、所述特征融合图通过卷积神经网络完成图像分割的预测。2.按照权利要求1所述的一种基于多感受野上下文语义信息的图像语义分割方法,其特征在于,步骤二中所述扩张卷积的输出为:其中,y
i
表示扩张卷积第i个输出,扩张卷积的卷积核大小为k*k,扩张率为r,x
i
为转换器子网络前的扩张卷积的第i个输入特征映射,m为卷积核大小为k*k的滤波器矩阵w[k]的长度。3.按照权利要求1所述的一种基于多感受野上下文语义信息的图像语义分割方法,其特征在于,步骤三中所述转换器包括多头自注意力机制模型和多层感知器模型,所述多头自注意力机制模型和多层感知器模型的输入均进行归一化。4.按照权利要求3所述的一种基于多感受野上下文语义信息的图像语义分割方法,其特征在于,所述多头自注意力机制模型的输出为:Y
out
=concat[y1,y2,...y
i
...y
h
‑1]y
i
=Attentation(qW
iq
,jW
ij
,dW
id
)其中,Y
out
...

【专利技术属性】
技术研发人员:刘亮亮常靖
申请(专利权)人:河南农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1