基于梯度和区域亲和力优化的弱监督语义分割方法及装置制造方法及图纸

技术编号：36096842 阅读：46 留言：0更新日期：2022-12-24 11:15

本发明专利技术公开了基于梯度和区域亲和力优化的弱监督语义分割方法及装置，本方法提出的基于视觉Transformer的弱监督语义分割框架，可以保留精确的图像结构信息，反映像素间长距离语义关联。本发明专利技术从自注意力模块中提取梯度加权的类相关物体定位图和区域亲和度关联图，用于优化通过Transformer分类网络生成的类激活图，可以有效扩大激活区域，并使用显著性约束提高激活区域的边界质量，缓解边界被错误划分现象，为分割模型提供高质量的物体定位图；在类激活图中广泛使用的二值交叉熵(BCE)损失使CAM中每个像素可以响应于同一感受野中出现的多个类别，是造成像素标注错误的重要原因。是造成像素标注错误的重要原因。是造成像素标注错误的重要原因。

全部详细技术资料下载

【技术实现步骤摘要】
基于梯度和区域亲和力优化的弱监督语义分割方法及装置

[0001]本专利技术涉及图像分割
，特别涉及基于梯度和区域亲和力优化的弱监督语义分割方法及装置。

技术介绍

[0002]语义分割是标注图像中各个像素类别的计算机视觉技术，广泛应用于自动驾驶、机器人视觉、精准农业和生物医学等领域。随着深度学习的发展，基于神经网络的语义分割方法取得了显著成果。全监督学习的语义分割训练过程中，有逐像素语义标注图像作为标签来辅助学习，可以达到不错的准确率。然而，全监督学习需要大量像素级别语义标注图像，标注单张图像的像素级别标签平均花费239.7秒，成本消耗巨大，实际应用受限。区别于全监督学习，弱监督学习使用更容易获得的真值标注如边界框、点、涂鸦和图像级别标签，替代逐像素的类别标注，训练网络可利用的先验信息很少，要实现高精度语义分割，具有相当大的难度，但不需要大量繁琐的数据标注，可以节省许多人力物力，因此近年来受到学界很多关注。通过采用更方便的标注信息，期望媲美甚至超过监督学习的性能，弱监督学习方法成为语义分割的热门研究方向。基于图像级标签的方法是所需标注成本最小，分割难度最大的弱监督方法，也是现在主流的弱监督学习语义分割研究方向。基于图像级标签的主流方法是把全连接层的最后一层改为全局池化层，融合最后一个卷积层特征，再把标签输入训练收敛的分类网络，生成类激活图(Class Activation Map)。CAM通常只包括包含指定类别对象区域的一部分，然后使用例如擦除或扩展的方法，优化 CAM 获得分割掩膜；最后将其作为伪标签，按照全监...

【技术保护点】

【技术特征摘要】
1.一种基于梯度和区域亲和力优化的弱监督语义分割方法，其特征在于，包括训练集和训练模型；所述训练集包括类别标注数据集和显著图数据集，所述类别标注数据集由标注样本以及标注样本对应的真实类别标签组成，所述显著图数据集中由标注样本对应的显著图组成；所述训练模型为基于注意力机制的弱监督语义分割框架GANet；所述方法包括如下步骤：S1、将训练集输入训练模型，输出得到类别块预测向量和图像块预测向量，计算类别块预测向量、图像块预测向量与标注样本对应的真实类别标签之间的监督损失；S2、对训练模型输出的三维特征图进行筛选得到目标特征图和背景特征图；根据目标特征图、背景特征图和标注样本对应的显著图构建预测显著图；计算预测显著图与标注样本对应的显著图之间的显著性损失；结合步骤S1中的监督损失，对训练模型进行训练得到模型SGANet；S3、从步骤S2中的模型SGANet中获得基于图像块的类激活图；基于注意力图提取梯度加权注意力图和区域亲和度关联图优化基于图像块的类激活图，得到优化后的物体定位图；S4、使用步骤S3中优化后的物体定位图处理三维特征图；使用Softmax交叉熵损失对模型SGANet进行再激活优化；S5、从再激活优化后的模型SGANet中提取优化后的物体定位图和补充优化图进行融合，得到最终的伪标签对图像分割模型进行全监督训练。2.如权利要求1所述的一种基于梯度和区域亲和力优化的弱监督语义分割方法，其特征在于：所述训练模型的网络结构采用Vit网络，Vit网络中存在L个层级相连的编码层，每层都包含一个多头注意力模块，一个前向激活层和两个分别位于多头注意力模块和前向激活层之前的LayerNorm层。3.如权利要求1所述的一种基于梯度和区域亲和力优化的弱监督语义分割方法，其特征在于，步骤S1具体包括如下子步骤：S11、将训练集输入训练模型，训练模型的Transformer编码器输出类别编码块和图像编码块；S12、将类别编码块和图像编码块进行处理得到类别块预测向量和图像块预测向量；S13、计算类别块预测向量与标注样本对应的真实类别标签之间的交叉熵损失；S14、计算图像块预测向量与标注样本对应的真实类别标签之间的交叉熵损失；S15、根据步骤S14得到交叉熵损失和步骤S15得到交叉熵损失的总和，得到监督损失。4.如权利要求1所述的一种基于梯度和区域亲和力优化的弱监督语义分割方法，其特征在于，步骤S12中类别编码块经过全连接层转化成类别块预测向量。5...

【专利技术属性】
技术研发人员：张鼎文，薛文灏，张晓，程乐超，方超伟，韩军伟，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人