一种基于注意力融合的弱监督语义分割方法技术

技术编号:39145195 阅读:14 留言:0更新日期:2023-10-23 14:56
本发明专利技术公开了一种基于注意力融合的弱监督语义分割方法,涉及计算机视觉技术领域,以Vision Transformer为基本网络结构,提出了一个简单而有效的弱监督语义分割框架。在该框架中,首先设计了一个自适应注意力融合模块,对不同层注意力分配不同的权重,融合之后的注意力在保留目标细节的同时也能较好地抑制背景噪声。此外针对注意力中次重要的区域不能够较好的激活目标区域这一问题,设计了一个调制函数用来增大次重要区域的注意力值,有效的突出目标区域。然后使用调制后的注意力对粗糙的类激活图进行优化,此时得到的类激活图中目标区域能够被更加完整且准确的激活,能够较好的解决类激活图的不完全激活问题。决类激活图的不完全激活问题。决类激活图的不完全激活问题。

【技术实现步骤摘要】
一种基于注意力融合的弱监督语义分割方法


[0001]本专利技术涉及计算机视觉
,特别是涉及一种基于注意力融合的弱监督语义分割方法。

技术介绍

[0002]语义分割是计算机视觉领域一个基础而又具有挑战性的任务之一,该任务利用计算机的特征表达来模拟人类对图像的识别过程,为给定图像的每一个像素分配一个语义类别标签。近年来由于深度学习方法的蓬勃发展,语义分割也取得了显著的进展。作为一项密集型预测任务,语义分割模型的训练离不开大规模像素级标注数据,然而图像的像素级标注获取困难且耗时耗力。
[0003]弱监督语义分割技术,由于仅依赖弱标注数据训练分割模型,可以解决现有语义分割模型对于大量像素级标注数据的依赖问题,也因此正在成为一大学术研究热点,常见的弱标注包括边界框标注、涂鸦标注、点标注、图像级标注等。在上述弱监督标签中,图像级标注相比于其他方式更加容易获得,同时,由于仅给出了图像中存在的具体目标类别信息,并没有指出目标类别在图像中的位置,基于图像级标注的弱监督语义分割也是最具有挑战性的。
[0004]由于缺乏目标类别在图像中的具体位置信息,大多数图像级弱监督语义分割方法通常需要由类激活图生成的粗略位置信息。类激活图是一种基于深度分类网络的技术,它生成的特征图具有与总类别相同数量的通道。方法的具体操作流程如下:1)通过类激活图获得种子区域;2)扩展种子区域以获得伪标签;3)使用伪标签来训练传统的全监督神经网络以获得最终的分割结果。由于类激活图往往只覆盖对象的最有鉴别力的区域,并将背景误认为前景,因此许多工作都致力于生成更高质量的类激活图。
[0005]随着视觉转换器(Vision Transformer,ViT)的快速发展,研究者们开始将Vision Transformer引入弱监督语义分割任务,一些方法利用Vision Transformer结构提取图像特征并生成粗糙的类激活图,然后使用注意力对粗糙的类激活图进行优化得到更高质量的类激活图。通常这些方法会直接将不同层的注意力相加融合。然而,Vision Transformer结构的浅层注意力会更加关注图像的局部细节特征,由浅层注意力优化得到的类激活图往往包含较多的细节信息;深层注意力则更加关注图像全局信息,因此直接将不同层的注意力相加融合并不是最优的选择,可能导致优化阶段中的误导信息。

技术实现思路

[0006]为了解决以上技术问题,本专利技术提供一种基于注意力融合的弱监督语义分割方法,包括以下步骤
[0007]S1、准备数据集,数据集包括训练集、验证集以及测试集;
[0008]S2、对数据集中的图像进行数据预处理;
[0009]S3、搭建基于注意力融合的弱监督语义分割模型,采用在图像识别数据集
ImageNet上预训练的数据图像转换器DeiT作为模型的主干;步骤S3包括以下分步骤:
[0010]S3.1、将步骤S2中经过数据预处理的图像分割成N个不重叠的块,然后通过线性映射构造N个块令牌,并将C个类令牌与N个块令牌拼接得到模型的输入令牌;
[0011]S3.2、将输入令牌输入到基于注意力融合的弱监督语义分割模型的Transfomer编码层,得到输出令牌;
[0012]S3.3、从输出令牌中提取最后N个块令牌组成输出块令牌,并对输出块令牌进行重组操作和卷积操作,得到粗糙类激活图,
[0013]Coarse

CAM=Conv(Reshape(Tp_out))
[0014]其中,Tp_out表示输出块令牌,Reshape表示重组操作,Conv表示卷积操作,Coarse

CAM表示粗糙类激活图;
[0015]S3.4、输入令牌经过Transfomer编码层时,通过注意力模块对输入令牌进行注意力计算产生注意力Attention,计算公式如下:
[0016][0017]其中,Q和K分别表示输入令牌在经过transformer编码层时通过线性投影得到的Quary矩阵和Key矩阵,d
k
表示缩放因子,T表示矩阵转置操作;
[0018]S3.5、每个transformer编码层都会产生一个注意力,经过L个transformer编码层后得到所有的注意力,将L个注意力命名为A;接着对A进行全局平均池化操作,然后经过全连接层进行信息交互生成权重W,如下所示:
[0019]W=FC(GAP(A))
[0020]其中,GAP表示全局平均池化操作,FC表示全连接层;
[0021]S3.6、将得到的权重W与A相乘并进行融合得到最终的注意力W


[0022]S3.7、将最终的注意力W

进一步划分为类到块注意力A
c2p
和块到块注意力A
p2p
,并将类到块注意力A
c2p
和块到块注意力A
p2p
分别与调制函数G相乘;
[0023]S3.8、使用调制后的类到块注意力和块到块注意力依次对粗糙类激活图进行优化,得到最终类激活图;
[0024]S4、对基于注意力融合的弱监督语义分割模型进行多轮训练,将训练的最好一轮结果对应的最好参数进行保存;
[0025]S5、将保存的最好参数加载到基于注意力融合的弱监督语义分割模型中,然后将测试集数据输入到模型中,生成完整的类激活图。。
[0026]本专利技术进一步限定的技术方案是:
[0027]进一步的,步骤S1中,使用PASCAL VOC 2012数据集和MS COCO 2014数据集作为数据集,Pascal VOC 2012数据集有21个类别,包括20个对象类和一个背景类;MS COCO 2014数据集有81个类别,包括80个对象类和一个背景类。
[0028]前所述的一种基于注意力融合的弱监督语义分割方法,PASCAL VOC 2012数据集包括由1464幅图像组成的训练集、由1449幅图像组成的验证集以及由1456幅图像组成的测试集,其中训练集采用额外数据扩充后的10582张图像;MS COCO 2014数据集包括由82081幅图像组成的训练集和由40137幅图像组成的验证集。
[0029]前所述的一种基于注意力融合的弱监督语义分割方法,步骤S2包括以下分步骤:
[0030]S2.1、对图像进行随机水平翻转以及颜色抖动处理;
[0031]S2.2、接着对图像进行归一化处理,将图像大小调整为256
×
256;
[0032]S2.3、最后对图像进行随机裁剪,将图像大小调整为224
×
224。
[0033]前所述的一种基于注意力融合的弱监督语义分割方法,步骤S2.1中,对图像进行颜色抖动处理的方法具体为:将图像的亮度、对比度以及饱和度值均设置0.3。
[0034]前所述的一种基于注意力融合的弱监督语义分割方法,步骤S3.7中,调制函数G如下式所示:
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力融合的弱监督语义分割方法,其特征在于:包括以下步骤S1、准备数据集,数据集包括训练集、验证集以及测试集;S2、对数据集中的图像进行数据预处理;S3、搭建基于注意力融合的弱监督语义分割模型,采用在图像识别数据集ImageNet上预训练的数据图像转换器DeiT作为模型的主干;步骤S3包括以下分步骤:S3.1、将步骤S2中经过数据预处理的图像分割成N个不重叠的块,然后通过线性映射构造N个块令牌,并将C个类令牌与N个块令牌拼接得到模型的输入令牌;S3.2、将输入令牌输入到基于注意力融合的弱监督语义分割模型的Transfomer编码层,得到输出令牌;S3.3、从输出令牌中提取最后N个块令牌组成输出块令牌,并对输出块令牌进行重组操作和卷积操作,得到粗糙类激活图,Coarse

CAM=Conv(Reshape(Tp_out))其中,Tp_out表示输出块令牌,Reshape表示重组操作,Conv表示卷积操作,Coarse

CAM表示粗糙类激活图;S3.4、输入令牌经过Transfomer编码层时,通过注意力模块对输入令牌进行注意力计算产生注意力Attention,计算公式如下:其中,Q和K分别表示输入令牌在经过transformer编码层时通过线性投影得到的Quary矩阵和Key矩阵,d
k
表示缩放因子,T表示矩阵转置操作;S3.5、每个transformer编码层都会产生一个注意力,经过L个transformer编码层后得到所有的注意力,将L个注意力命名为A;接着对A进行全局平均池化操作,然后经过全连接层进行信息交互生成权重W,如下所示:W=FC(GAP(A))其中,GAP表示全局平均池化操作,FC表示全连接层;S3.6、将得到的权重W与A相乘并进行融合得到最终的注意力W

;S3.7、将最终的注意力W

进一步划分为类到块注意力A
c2p
和块到块注意力A
p2p
,并将类到块注意力A
c2p
和块到块注意力A
p2p
分别与调制函数G相乘;S3.8、使用调制后的类到块注意力和块到块注意力依次对粗糙类激活图进行优化,得到最终类激活图;S4、对基于注意力融合的弱监督语义分割模型进行多轮训练,将训练的最好一轮结果对应的最好参数进行保存;S5、将保存的最好参数加载到基于注意力融合的弱监督语义分割模型中,然后将测试集数据输入到模型中,生成完整的类激活图。2.根据权利要求1所述的一种基于注意力融合的弱监督语义分割方法,其特征在于:所述步骤S1中,使用PASCAL VOC 2012数据集和MS ...

【专利技术属性】
技术研发人员:苏京峰李军侠
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1