一种基于注意力融合的弱监督语义分割方法技术

技术编号：39145195 阅读：14 留言：0更新日期：2023-10-23 14:56

本发明专利技术公开了一种基于注意力融合的弱监督语义分割方法，涉及计算机视觉技术领域，以Vision Transformer为基本网络结构，提出了一个简单而有效的弱监督语义分割框架。在该框架中，首先设计了一个自适应注意力融合模块，对不同层注意力分配不同的权重，融合之后的注意力在保留目标细节的同时也能较好地抑制背景噪声。此外针对注意力中次重要的区域不能够较好的激活目标区域这一问题，设计了一个调制函数用来增大次重要区域的注意力值，有效的突出目标区域。然后使用调制后的注意力对粗糙的类激活图进行优化，此时得到的类激活图中目标区域能够被更加完整且准确的激活，能够较好的解决类激活图的不完全激活问题。决类激活图的不完全激活问题。决类激活图的不完全激活问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于注意力融合的弱监督语义分割方法

[0001]本专利技术涉及计算机视觉
，特别是涉及一种基于注意力融合的弱监督语义分割方法。

技术介绍

[0002]语义分割是计算机视觉领域一个基础而又具有挑战性的任务之一，该任务利用计算机的特征表达来模拟人类对图像的识别过程，为给定图像的每一个像素分配一个语义类别标签。近年来由于深度学习方法的蓬勃发展，语义分割也取得了显著的进展。作为一项密集型预测任务，语义分割模型的训练离不开大规模像素级标注数据，然而图像的像素级标注获取困难且耗时耗力。
[0003]弱监督语义分割技术，由于仅依赖弱标注数据训练分割模型，可以解决现有语义分割模型对于大量像素级标注数据的依赖问题，也因此正在成为一大学术研究热点，常见的弱标注包括边界框标注、涂鸦标注、点标注、图像级标注等。在上述弱监督标签中，图像级标注相比于其他方式更加容易获得，同时，由于仅给出了图像中存在的具体目标类别信息，并没有指出目标类别在图像中的位置，基于图像级标注的弱监督语义分割也是最具有挑战性的。
[0004]由于缺乏目标类别在图像中的具体位置信息，大多数图像级弱监督语义分割方法通常需要由类激活图生成的粗略位置信息。类激活图是一种基于深度分类网络的技术，它生成的特征图具有与总类别相同数量的通道。方法的具体操作流程如下：1)通过类激活图获得种子区域；2)扩展种子区域以获得伪标签；3)使用伪标签来训练传统的全监督神经网络以获得最终的分割结果。由于类激活图往往只覆盖对象的最有鉴别力的区域，并将背景误认为前景，因此许多工作

【技术保护点】

【技术特征摘要】
1.一种基于注意力融合的弱监督语义分割方法，其特征在于：包括以下步骤S1、准备数据集，数据集包括训练集、验证集以及测试集；S2、对数据集中的图像进行数据预处理；S3、搭建基于注意力融合的弱监督语义分割模型，采用在图像识别数据集ImageNet上预训练的数据图像转换器DeiT作为模型的主干；步骤S3包括以下分步骤：S3.1、将步骤S2中经过数据预处理的图像分割成N个不重叠的块，然后通过线性映射构造N个块令牌，并将C个类令牌与N个块令牌拼接得到模型的输入令牌；S3.2、将输入令牌输入到基于注意力融合的弱监督语义分割模型的Transfomer编码层，得到输出令牌；S3.3、从输出令牌中提取最后N个块令牌组成输出块令牌，并对输出块令牌进行重组操作和卷积操作，得到粗糙类激活图，Coarse
‑
CAM＝Conv(Reshape(Tp_out))其中，Tp_out表示输出块令牌，Reshape表示重组操作，Conv表示卷积操作，Coarse
‑
CAM表示粗糙类激活图；S3.4、输入令牌经过Transfomer编码层时，通过注意力模块对输入令牌进行注意力计算产生注意力Attention，计算公式如下：其中，Q和K分别表示输入令牌在经过transformer编码层时通过线性投影得到的Quary矩阵和Key矩阵，d
k
表示缩放因子，T表示矩阵转置操作；S3.5、每个transformer编码层都会产生一个注意力，经过L个transformer编码层后得到所有的注意力，将L个注意力命名为A；接着对A进行全局平均池化操作，然后经过全连接层进行信息交互生成权重W，如下所示：W＝FC(GAP(A))其中，GAP表示全局平均池化操作，FC表示全连接层；S3.6、将得到的权重W与A相乘并进行融合得到最终的注意力W
′
；S3.7、将最终的注意力W
′
进一步划分为类到块注意力A
c2p
和块到块注意力A
p2p
，并将类到块注意力A
c2p
和块到块注意力A
p2p
分别与调制函数G相乘；S3.8、使用调制后的类到块注意力和块到块注意力依次对粗糙类激活图进行优化，得到最终类激活图；S4、对基于注意力融合的弱监督语义分割模型进行多轮训练，将训练的最好一轮结果对应的最好参数进行保存；S5、将保存的最好参数加载到基于注意力融合的弱监督语义分割模型中，然后将测试集数据输入到模型中，生成完整的类激活图。2.根据权利要求1所述的一种基于注意力融合的弱监督语义分割方法，其特征在于：所述步骤S1中，使用PASCAL VOC 2012数据集和MS ...

【专利技术属性】
技术研发人员：苏京峰，李军侠，
申请(专利权)人：南京信息工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人