【技术实现步骤摘要】
基于语义传播与前背景感知的图像语义分割方法及系统
[0001]本专利技术属于计算机视觉与图像语义分割领域,具体涉及一种基于语义传播与前背景感知的图像语义分割方法及系统。
技术介绍
[0002]图像语义分割(Image Semantic Segmentation)是计算机视觉中长期存在且充满挑战的基础任务。它的基本目标是对于给定图片中每一个像素都分配一个对应语义类别的标签,最后得到对应类别的分割图,因此图像分割也可以被看作是像素级的分类任务,是细粒度最小的图像语义理解任务。
[0003]随着深度神经网络的发展,出现了许多基于卷积神经网络的图像语义分割算法。全卷积神经网络FCNs(Fully Convolutional Neural Networks)首次将完全卷积用于语义分割,其将分类网络的全连接层替换成卷积层,能够更有效地进行端到端训练,且输入图像大小不受限制,能够产生对应大小的密集预测,从而实现像素级别的分类预测。此后,研究人员提出了一系列基于FCN的改进算法,并在图像语义分割任务上取得了进展。但是,由于FCN通过 ...
【技术保护点】
【技术特征摘要】
1.一种基于语义传播与前背景感知的图像语义分割方法,其特征在于,包括以下步骤:步骤A:收集特定场景的图像样本,并标注每个像素所属的对象类别,构建带类别标签的训练集;步骤B:利用图像增强技术对训练集进行数据增强,得到增强后的训练集S
E
;步骤C:使用训练集S
E
训练基于语义传播与前背景感知的深度学习网络模型,用于分析图像中每个像素的语义类别;步骤D:将待分割图像输入到训练后的深度学习网络模型中,输出与原图大小相同的语义分割图,得到语义分割结果。2.根据权利要求1所述的基于语义传播与前背景感知的图像语义分割方法,其特征在于,所述步骤B中,对训练集中的原始图像及对应掩码标注进行随机水平翻转,并在设定范围内进行随机缩放以及随机亮度抖动。3.根据权利要求1所述的基于语义传播与前背景感知的图像语义分割方法,其特征在于,所述步骤C具体包括以下步骤:步骤C1:将训练集S
E
中的样本图像的特征图输入深度卷积神经网络,提取高层特征与低层特征的提取,然后送入联合语义传播上采样模块;步骤C2:在联合语义传播上采样模块中,通过语义传播方法,利用高层特征的语义信息指导低层特征增强语义表示,并嵌入到层次上采样结构中,得到分辨率大且富含语义信息的特征图X
out
,并送入金字塔前背景感知模块;步骤C3:在金字塔前背景感知模块中,对输入特征提取多尺度的前景上下文特征以及背景上下文特征,并计算出每个前景上下文特征与背景上下文特征之间的依赖关系图,利用依赖关系图与对应的前景上下文特征进行加权,增强前景特征的表示能力,最后融合得到特征图E
out
;步骤C4:将E
out
输入softmax层,根据目标损失函数loss,利用反向传播方法计算深度学习网络模型中的各参数的梯度,并利用随机梯度下降方法更新参数;步骤C5:当深度学习网络模型产生的损失值迭代变化小于设定阈值或迭代达到最大迭代次数,终止深度学习网络模型的训练。4.根据权利要求3所述的基于语义传播与前背景感知的图像语义分割方法,其特征在于,所述步骤C1具体包括以下步骤:步骤C11:将训练集S
E
中的一个样本图像的特征图X,输入深度卷积神经网络ResNet101进行特征提取,ResNet101包含五个特征提取层,分别为layer1‑
layer5,每经过一个特征提取层,输出的特征图大小减半,每个特征提取层的输出表示为:l1=layer1(X)l2=layer2(l1)l3=layer3(l2)l4=layer4(l3)l5=layer5(l4)其中,layer1包含输出通道数为64、步幅为2的7
×
7卷积,步幅为2的3
×
3最大池化操作;layer2由3个卷积块组成,每个卷积块由输出通道数为64的1
×
1卷积、输出通道数为64的3
×
3卷积、输出通道数为256的1
×
1卷积组成,每个卷积块之间都有一个残差连接;Layer3由
4个卷积块组成,每个卷积块由输出通道数为128的1
×
1卷积、输出通道数为128的3
×
3卷积、输出通道数为512的1
×
1卷积组成,每个卷积块之间都有一个残差连接;layer4由23个卷积块组成,每个卷积块由输出通道数为256的1
×
1卷积、输出通道数为256的3
×
3卷积、输出通道数为1024的1
×
1卷积组成,每个卷积块之间都有一个残差连接;layer5由3个卷积块组成,每个卷积块由输出通道数为512的1
×
1卷积、输出通道数为512的3
×
3卷积、输出通道数为2048的1
×
1卷积组成,每个卷积块之间都有一个残差连接;步骤C12:将l3,l4,l5输入联合语义传播上采样模块。5.根据权利要求3所述的基于语义传播与前背景感知的图像语义分割方法,其特征在于,所述语义传播方法通过两个分支提取高层特征的全局语义以及局部语义,其中全局语义分支的组成为平均池化+1
×
1卷积且输出通道数为高级特征通道数的1/2+1
×
1卷积且输出通道数为高级特征通道数,局部语义分支组成为1
×
1卷积且输出通道数为高级特征通道数的1/2+1
×
1卷积且输出通道数为高级特征通道数,将两分支的输出进行相加并通过sigmoid函数激活,得到高层特征的语义表示;然后,通过与低层特征进行逐像素乘法,将语义信息传入低层,增强低层特征的语义表示;增强后的低层特征与原低层特征进行融合,得到经过语义传播的最终输出;整个过程用公式表示为:其中,T(
·
)为语义传播函数,t为语义传播函数返回的输出特征,与l具有相同维度,l、h分别为低层特征输入与高层特征输入,Mpool(
·
)为最大池化操作,Mpool(;1)表示最后输出的空间尺寸为1
×
1,F(
·
)为分支结构函数,包含全局语义分支以及局部语义分支操作过程,参数θ、μ表示全局语义分支的两个1
×
1卷积操作,ω表示局部语义分支的两个1
×
1卷积操作。6.根据权利要求4所述的基于语义传播与前背景感知的图像语义分割方法,其特征在于,所述步骤C2具体包括以下步骤:步骤C21:将输入特征l5通过双线性插值上采样两倍得到l
′5,将l
′5与l4输入语义传播函数T(
·
)进行语义传播,l
′5、l4分别作为输入语义传播函数的高层特征与低层特征,将语义传播函数输出的特征向量与l
′5进行融合得到输出特征l
54
;其中,为逐像素加法;步骤C22:将输入特征l4通过双线性插值上采样两倍得到l
′4,将l
′4与l3输入语义传播函数T(
·
)进行语义传播,l
′4、l3分别作为输入语义传播函数的高层特征与低层特征,将语义传播函数输出的特征向量与l
′4进行融合得到输出特征l
43
;步骤C23:将输出特征l
54
通过双线性插值上采样两倍得到l
′
54
,将l
′
54
与l
43
输入语义传播函数T(
·
)进行语义传播,l
′
54
、l
43
分别作为语义传播函数的高层特征与低层特征,将语义传播函数输出的特征向量与l
′
54
进行融合得到输出特征l
543
;步骤C24:将输入特征l3通过一个3
×
3卷积层以提取更细粒度的特征表示,然后与步骤
C22输出特征l
43
、步骤C23输出特征l
543
按通道维度进行拼接,即所有特征空间维度保持一致,将所有...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。