基于注意力机制图像块度量学习的弱监督语义分割方法技术

技术编号:33126825 阅读:22 留言:0更新日期:2022-04-17 00:37
本发明专利技术公开了一种基于注意力机制图像块度量学习的弱监督语义分割方法,包括:1)基于深度卷积网络的分类网络得到类别激活图像;2)利用类别激活图像得到包含物体定位信息的种子区域与候选区域;3)基于注意力机制分别得到包含前景和背景的图像块提案;4)提取正、负图像块对作为正、负样本对;5)为分类网络增加度量学习任务;6)训练种子区域扩张网络,配合随机游走算法扩大种子区域;7)训练基于深度学习的全监督语义分割网络,得到最终的语义分割掩码。本发明专利技术方法引入度量学习产生用于训练的数据,可以兼容各种全监督语义分割网络,在弱监督语义分割中提高生成的种子区域对前景目标物体的覆盖精度,进而提高生成的语义分割掩码的整体精度。的整体精度。的整体精度。

【技术实现步骤摘要】
proposals);
[0013]4)利用步骤3)的图像块提案,提取正、负图像块对作为正、负样本对;
[0014]5)利用步骤4)的正、负样本对,为分类网络增加度量学习任务,采用多级相似性损失进行训练,在训练过程中提高网络对同一个类别正图像块的响应,降低对背景和其它噪声类别图像块的响应,从而提高种子区域精度;
[0015]6)利用训练后的分类网络,得到精度更高的包含目标物体像素级定位信息的种子区域,用于训练种子区域扩张网络,配合随机游走算法扩大种子区域;
[0016]7)利用步骤6)中的种子区域扩张网络生成伪掩码,训练基于深度学习的全监督语义分割网络,得到最终的语义分割掩码。
[0017]进一步,在步骤1)中,所述分类网络是指以ResNet

38为骨干网络的残差卷积网络;
[0018]所述类别激活图为包含了类别信息的图像,表示为:
[0019][0020]式中,M
c
(x,y)为类别c的类别激活图处于(x,y)处的值;f
n
(x,y)为分类网络倒数第二层的第n个输出中处于(x,y)处的值;N
f
为分类网络倒数第二层的通道数;n为第二层的通道对应的编号;θ
cn
为分类网络倒数第二层第n个输出特征图在第c个类别的输出概率计算中所占权重;M
c
(x,y)的值的意义为像素区域对c类别的激活强度。
[0021]进一步,在步骤2)中,所述种子区域是指在类别图中,激活值大于一个阈值的区域,表示为:<br/>[0022][0023]式中,S(x,y)为种子区域S中处于(x,y)处的值,该值代表某一个类别;c为类别;M
c
(x,y)为类别c的类别激活图处于(x,y)处的值;为不同类别c的类别激活图处于位置(x,y)的值中,数值最大的值对应的类别;为不同类别c的类别激活图处于位置(x,y)的值中,数值最大的值;β1为超参数,为属于0到1区间的背景类阈值,大于该阈值的像素为非背景类;
[0024]基于种子区域,使用了轮廓检测框出图片中各个类的候选区域(object proposals),作为粗糙的目标物体定位信息;其中,为了避免噪声的干扰,对于长或宽小于50个像素的候选区域,以及长宽比大于4的候选区域进行了过滤的操作;
[0025]采用了非极大值抑制算法(Non

Maximum Suppression,NMS)对具有较大重叠的候选区域进行筛选,筛选出其中具有最大置信度的候选区域。
[0026]进一步,在步骤3)中,采用基于注意力机制由细到粗的图像块生成方法,分别得到包含前景的图像块提案,称为前景图像块提案,和包含背景的图像块提案,称为背景图像块提案,具体如下:
[0027]前景图像块提案的生成过程为:
[0028]对于一个宽和高为W和H的候选区域,首先将候选区域等分成4
×
4个均等的图像块
区域,每个图像块的大小为H/4和W/4;然后靠近边缘的12个图像块被定于为粗粒度前景图像块;对于处于候选区域中心的4个H/4
×
W/4的图像块,先将它合并之后得到宽和高分别为H/2和W/2的中心区域,再将中心区域等分为3
×
3个均等的细粒度图像块,最后,将生成的宽和高分别为H/6和W/6的图像块定义为细粒度前景图像块;
[0029]其中,背景的激活图像在坐标(x,y)处对应的值M
bg
(x,y)的生成为:
[0030][0031]式中,C
fg
是前景的所有类别的集合,c为类别,M
fg
(x,y)是类别c的类别激活图在坐标(x,y)处对应的值,α1为超参数;
[0032]背景图像块会在候选区域的高置信度背景区域中生成,并以比前景图像块提案生成中更粗粒度地去进行采样;假设某个候选区域的宽和高分别为W和H,背景图像块提案定义为在候选区域周围一圈,用W/2
×
H/2大小的窗口,在高置信度背景区域中采样。
[0033]进一步,在步骤4)中,所述正样本对有两种,包括:

同一个候选区域生成的细粒度图像块和粗粒度图像块组成的图像块对,

同属于一个类别的候选区域之间的细粒度图像块之间组成的图像块对;所述负样本对有两种,包括:

一个候选区域内的图像块和它周围的背景图像块间组成的图像块对,

不属于一个类别的候选区域之间的细粒度图像块之间组成的图像块对。
[0034]进一步,在步骤5)中,所述多级相似性损失表示为:
[0035][0036]式中,L
MS
为多级相似性损失;α,β和λ是超参数,其中,α用于控制正样本对在损失值计算中的权重,β用于控制负样本对在损失值计算中的权重,λ用于控制特征空间中的间隔;m是样本个数;i、k为样本对中的编号;S
ik
是样本i和样本k的相似度;P
i
是高信息量正样本对的集合的子集,其中所有样本对都包含样本i;N
i
是高信息量负样本对的集合的子集,其中所有样本对都包含样本i;
[0037]上述样本也就是步骤4)得到的正、负样本,为图像块对。
[0038]进一步,在步骤6)中,所述种子区域扩张网络为亲和度网络,该网络的配置为:
[0039]训练样本为基于经过度量学习后的分类网络,再用步骤2)到步骤5)的步骤得出的正、负样本对,同样是图像块组成的样本对;
[0040]亲和度表示为:
[0041][0042]式中,q、j为样本对中像素点q和j的编号;f
aff
(q)为种子区域扩张网络对像素点q提取的特征向量的输出;f
aff
(j)为种子区域扩张网络对像素点j提取的特征向量的输出;W
pj
为像素点q和j的亲和度;
[0043]训练目标为减小负样本的亲和度,增大正样本对的亲和度;
[0044]配合随机游走算法扩大种子区域,用法是将经过度量学习后的分类网络产生的类别激活图中的高激活区域,扩张到与其亲和度较高的区域。
[0045]进一步,在步骤7)中,全监督语义分割网络是指输入为带有像素级类别标签的图像的网络。
[0046]本专利技术与现有技术相比,具有如下优点与有益效果:
[0047]1、本专利技术创新点的作用在于为只有图像级标签的数据生成像素级标签,也就是伪掩码,优点是可以与现有的全监督语义分割网络兼容。
[0048]2、本专利技术在弱监督语义分割任务中利用度量学习,拉开了属于不同标签的像素的差距,提高了伪掩码的质量。
[0049]3、补充了全监督语义分割任务缺少的训练样本。
[0050]4、只使用类激活图像作为标签质量过低,具体表现在激活区域太小太集中,本专利技术采用多种方法扩大了类激活图的区域。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于注意力机制图像块度量学习的弱监督语义分割方法,其特征在于,包括以下步骤:1)将带有图像级标签的图片数据用于训练基于深度卷积网络的分类网络,通过评估像素对于类别分类的贡献程度得到类别激活图;2)利用步骤1)得到的类别激活图,通过选取置信度大于阈值的区域,得到目标物体在图像中的定位信息,并定义为种子区域,基于种子区域框出图片中各个类的候选区域,作为粗糙的目标物体定位信息;3)利用步骤2)的候选区域,采用基于注意力机制由细到粗的图像块生成方法,分别得到包含前景的图像块提案和包含背景的图像块提案;4)利用步骤3)的图像块提案,提取正、负图像块对作为正、负样本对;5)利用步骤4)的正、负样本对,为分类网络增加度量学习任务,采用多级相似性损失进行训练,在训练过程中提高网络对同一个类别正图像块的响应,降低对背景和其它噪声类别图像块的响应,从而提高种子区域精度;6)利用训练后的分类网络,得到精度更高的包含目标物体像素级定位信息的种子区域,用于训练种子区域扩张网络,配合随机游走算法扩大种子区域;7)利用步骤6)中的种子区域扩张网络生成伪掩码,训练基于深度学习的全监督语义分割网络,得到最终的语义分割掩码。2.根据权利要求1所述的基于注意力机制图像块度量学习的弱监督语义分割方法,其特征在于,在步骤1)中,所述分类网络是指以ResNet

38为骨干网络的残差卷积网络;所述类别激活图为包含了类别信息的图像,表示为:式中,M
c
(x,y)为类别c的类别激活图处于(x,y)处的值;f
n
(x,y)为分类网络倒数第二层的第n个输出中处于(x,y)处的值;N
f
为分类网络倒数第二层的通道数;n为第二层的通道对应的编号;θ
cn
为分类网络倒数第二层第n个输出特征图在第c个类别的输出概率计算中所占权重;M
c
(x,y)的值的意义为像素区域对c类别的激活强度。3.根据权利要求1所述的基于注意力机制图像块度量学习的弱监督语义分割方法,其特征在于,在步骤2)中,所述种子区域是指在类别图中,激活值大于一个阈值的区域,表示为:式中,S(x,y)为种子区域S中处于(x,y)处的值,该值代表某一个类别;c为类别;M
c
(x,y)为类别c的类别激活图处于(x,y)处的值;为不同类别c的类别激活图处于位置(x,y)的值中,数值最大的值对应的类别;为不同类别c的类别激活图处于位置(x,y)的值中,数值最大的值;β1为超参数,为属于0到1区间的背景类阈值,大于该阈值的像素为非背景类;基于种子区域,使用了轮廓检测框出图片中各个类的候选区域,作为粗糙的目标物体
定位信息;其中,为了避免噪声的干扰,对于长或宽小于50个像素的候选区域,以及长宽比大于4的候选区域进行了过滤的操作;采用了非极大值抑制算法对具有大重叠的候选区域进行筛选,筛选出其中具有最大置信度的候选区域。4.根据权利要求1所述的基于注意力机制图像块度量学习的弱监督语义分割方法,其特征在于,在步骤3)中,采用基于注意力机制由细到粗的图像块生成方法,分别得到包含前景的图像块提案,称为前景图像块提案,和包含背景的图像块提案,称为背景图像块提案,具体如下:前景图像块提案的生成过程为:对于一个宽和高为W和H的候选区域,首先将候选区域等分成4
×
4个均等的图像块区域,每个图像块的大小为H/4和W/4...

【专利技术属性】
技术研发人员:陈百基陈可可谢东欣
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1