当前位置: 首页 > 专利查询>之江实验室专利>正文

基于梯度和区域亲和力优化的弱监督语义分割方法及装置制造方法及图纸

技术编号:36096842 阅读:46 留言:0更新日期:2022-12-24 11:15
本发明专利技术公开了基于梯度和区域亲和力优化的弱监督语义分割方法及装置,本方法提出的基于视觉Transformer的弱监督语义分割框架,可以保留精确的图像结构信息,反映像素间长距离语义关联。本发明专利技术从自注意力模块中提取梯度加权的类相关物体定位图和区域亲和度关联图,用于优化通过Transformer分类网络生成的类激活图,可以有效扩大激活区域,并使用显著性约束提高激活区域的边界质量,缓解边界被错误划分现象,为分割模型提供高质量的物体定位图;在类激活图中广泛使用的二值交叉熵(BCE)损失使CAM中每个像素可以响应于同一感受野中出现的多个类别,是造成像素标注错误的重要原因。是造成像素标注错误的重要原因。是造成像素标注错误的重要原因。

【技术实现步骤摘要】
基于梯度和区域亲和力优化的弱监督语义分割方法及装置


[0001]本专利技术涉及图像分割
,特别涉及基于梯度和区域亲和力优化的弱监督语义分割方法及装置。

技术介绍

[0002]语义分割是标注图像中各个像素类别的计算机视觉技术,广泛应用于自动驾驶、机器人视觉、精准农业和生物医学等领域。随着深度学习的发展,基于神经网络的语义分割方法取得了显著成果。全监督学习的语义分割训练过程中,有逐像素语义标注图像作为标签来辅助学习,可以达到不错的准确率。然而,全监督学习需要大量像素级别语义标注图像,标注单张图像的像素级别标签平均花费239.7秒,成本消耗巨大,实际应用受限。区别于全监督学习,弱监督学习使用更容易获得的真值标注如边界框、点、涂鸦和图像级别标签,替代逐像素的类别标注,训练网络可利用的先验信息很少,要实现高精度语义分割,具有相当大的难度,但不需要大量繁琐的数据标注,可以节省许多人力物力,因此近年来受到学界很多关注。通过采用更方便的标注信息,期望媲美甚至超过监督学习的性能,弱监督学习方法成为语义分割的热门研究方向。基于图像级标签的方法是所需标注成本最小,分割难度最大的弱监督方法,也是现在主流的弱监督学习语义分割研究方向。基于图像级标签的主流方法是把全连接层的最后一层改为全局池化层,融合最后一个卷积层特征,再把标签输入训练收敛的分类网络,生成类激活图(Class Activation Map)。CAM通常只包括包含指定类别对象区域的一部分,然后使用例如擦除或扩展的方法,优化 CAM 获得分割掩膜;最后将其作为伪标签,按照全监督方法训练分割模型。由于图像级别标签所含语义信息不足,导致生成的伪标签质量不高,制约着分割模型的性能提升,主要存在三种问题:1) 只包含目标的局部关键区域,2) 目标边界划分错误,3) 无法准确区分相邻目标间像素。CAM 只能提取影响分类预测的最有区别力的部分,而不是对象的全貌,如何从 CAM 反映的有限部分,获得精确完整的对象区域,是弱监督语义分割方法的研究重点。

技术实现思路

[0003]本专利技术的目的在于提供基于梯度和区域亲和力优化的弱监督语义分割方法及装置,以克服当前基于弱监督学习的图像语义分割任务中,伪标签质量不高导致分割模型性能低下的问题。现有基于弱监督学习的语义分割方法,大多采用图像级别标签,先前大多数弱监督语义分割方法都采用卷积神经网络(CNN)作为骨干网络,获得类激活图(CAM),但是CNN存在局部感受野和下采样信息减少的缺点,通过CNN得到的 CAM 往往只突出最显著的区域,定位的物体轮廓粗糙,不能很好区分相邻物体间的边界。此外,常用于优化模型的二值交叉熵损失(BCE loss)也存在缺陷,在多类别分类模式中,基于BCE loss的各个类别预测之间互不相关,类激活图像素有可能被同一感受野中多个类别激活,一些假阳性像素(A 类别像素被预测为类别B)和假阴性像素(A类别像素被预测为背景)出现的可能性增加,降低了后续生成的伪标签质量;
为实现上述目的,本专利技术提供如下技术方案:本申请公开了一种基于梯度和区域亲和力优化的弱监督语义分割方法,包括训练集和训练模型;所述训练集包括类别标注数据集和显著图数据集,所述类别标注数据集由标注样本以及标注样本对应的真实类别标签组成,所述显著图数据集中由标注样本对应的显著图组成;所述训练模型为基于注意力机制的弱监督语义分割框架GANet;所述方法包括如下步骤:S1、将训练集输入训练模型,输出得到类别块预测向量和图像块预测向量,计算类别块预测向量、图像块预测向量与标注样本对应的真实类别标签之间的监督损失;S2、对训练模型输出的三维特征图进行筛选得到目标特征图和背景特征图;根据目标特征图、背景特征图和标注样本对应的显著图构建预测显著图;计算预测显著图与标注样本对应的显著图之间的显著性损失;结合步骤S1中的监督损失,对训练模型进行训练得到模型SGANet;S3、从步骤S2中的模型SGANet中获得基于图像块的类激活图;基于注意力图提取梯度加权注意力图和区域亲和度关联图优化基于图像块的类激活图,得到优化后的物体定位图;S4、使用步骤S3中优化后的物体定位图处理三维特征图;使用Softmax交叉熵损失对模型SGANet进行再激活优化;S5、从再激活优化后的模型SGANet中提取优化后的物体定位图和补充优化图进行融合,得到最终的伪标签对图像分割模型进行全监督训练。
[0004]作为优选,步骤S1具体包括如下子步骤:S11、将训练集输入训练模型,训练模型的Transformer编码器输出类别编码块和图像编码块;S12、类别编码块经过全连接层转化成类别块预测向量;S13、图像编码块经过变形和C通道的卷积层处理成三维特征图;再对三维特征图进行全局平均池化处理得到图像块预测向量;S14、计算类别块预测向量与标注样本对应的真实类别标签之间的交叉熵损失;S15、计算图像块预测向量与标注样本对应的真实类别标签之间的交叉熵损失;S16、根据步骤S14得到交叉熵损失和步骤S15得到交叉熵损失的总和,得到监督损失。
[0005]作为优选,步骤S2具体包括如下子步骤:S21、对训练模型输出的三维特征图进行筛选,剔除非目标类别的三维特征图;得到目标特征图和背景特征图;S22、对目标特征图、背景特征图和标注样本对应的显著图进行二值化处理,再计算目标特征图、背景特征图与标注样本对应的显著图之间的像素重叠比;S23、根据步骤S22中像素重叠比的大小进行划分,将像素重叠比大于等于阈值的组成得到预测前景显著图;将像素重叠比小于阈值的划分为背景显著图,将背景显著图与背景特征图组合成预测背景显著图;将预测前景显著图和预测背景显著图相加组合成预测显著图;S24、计算预测显著图与标注样本对应的显著图之间的像素平均距离,得到显著性
损失;结合步骤S1中的监督损失,对训练模型进行训练得到模型SGANet。
[0006]作为优选,步骤S3中基于图像块的类激活图获得方法如下:S31、根据模型SGANet的Transformer编码器输出的图像编码块,图像编码块经过变形和C通道的卷积层处理成三维特征图;S32、使用类激活图计算方法处理三维特征图,获得基于图像块的类激活图。
[0007]作为优选,步骤S4中具体包括如下操作:使用优化后的物体定位图处理三维特征图得到多个特定类的特征图,拓展网络下支部分,同时计算基于二值交叉熵损失的上支部分损失和基于Softmax交叉熵损失的下支部分损失,两者一起更新网络模型。
[0008]本专利技术还公开了一种基于梯度和区域亲和力优化的弱监督语义分割装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述的一种基于梯度和区域亲和力优化的弱监督语义分割方法。
[0009]本专利技术还公开了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述的一种基于梯度和区域亲和力优化的弱监督语义分割方法。
[0010]本专利技术的有益效果:本专利技术一种基于梯度和区域亲和力优化的弱监督图像语义分割本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于梯度和区域亲和力优化的弱监督语义分割方法,其特征在于,包括训练集和训练模型;所述训练集包括类别标注数据集和显著图数据集,所述类别标注数据集由标注样本以及标注样本对应的真实类别标签组成,所述显著图数据集中由标注样本对应的显著图组成;所述训练模型为基于注意力机制的弱监督语义分割框架GANet;所述方法包括如下步骤:S1、将训练集输入训练模型,输出得到类别块预测向量和图像块预测向量,计算类别块预测向量、图像块预测向量与标注样本对应的真实类别标签之间的监督损失;S2、对训练模型输出的三维特征图进行筛选得到目标特征图和背景特征图;根据目标特征图、背景特征图和标注样本对应的显著图构建预测显著图;计算预测显著图与标注样本对应的显著图之间的显著性损失;结合步骤S1中的监督损失,对训练模型进行训练得到模型SGANet;S3、从步骤S2中的模型SGANet中获得基于图像块的类激活图;基于注意力图提取梯度加权注意力图和区域亲和度关联图优化基于图像块的类激活图,得到优化后的物体定位图;S4、使用步骤S3中优化后的物体定位图处理三维特征图;使用Softmax交叉熵损失对模型SGANet进行再激活优化;S5、从再激活优化后的模型SGANet中提取优化后的物体定位图和补充优化图进行融合,得到最终的伪标签对图像分割模型进行全监督训练。2.如权利要求1所述的一种基于梯度和区域亲和力优化的弱监督语义分割方法,其特征在于:所述训练模型的网络结构采用Vit网络,Vit网络中存在L个层级相连的编码层,每层都包含一个多头注意力模块,一个前向激活层和两个分别位于多头注意力模块和前向激活层之前的LayerNorm层。3.如权利要求1所述的一种基于梯度和区域亲和力优化的弱监督语义分割方法,其特征在于,步骤S1具体包括如下子步骤:S11、将训练集输入训练模型,训练模型的Transformer编码器输出类别编码块和图像编码块;S12、将类别编码块和图像编码块进行处理得到类别块预测向量和图像块预测向量;S13、计算类别块预测向量与标注样本对应的真实类别标签之间的交叉熵损失;S14、计算图像块预测向量与标注样本对应的真实类别标签之间的交叉熵损失;S15、根据步骤S14得到交叉熵损失和步骤S15得到交叉熵损失的总和,得到监督损失。4.如权利要求1所述的一种基于梯度和区域亲和力优化的弱监督语义分割方法,其特征在于,步骤S12中类别编码块经过全连接层转化成类别块预测向量。5...

【专利技术属性】
技术研发人员:张鼎文薛文灏张晓程乐超方超伟韩军伟
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1