一种基于注意力掩码的弱监督语义分割方法及装置制造方法及图纸

技术编号：39179661 阅读：8 留言：0更新日期：2023-10-27 08:27

本说明书公开了一种基于注意力掩码的弱监督语义分割方法及装置，可以将样本图像输入到注意力编码器中，得到全局类别令牌特征、图像分类结果和两种语义分割结果，而后，将该样本图像再次输入到注意力编码器中，生成样本图像对应的注意力矩阵以及随机生成目标掩码矩阵，并通过目标掩码矩阵对注意力矩阵进行补偿，得到补偿后的注意力矩阵，根据补偿后的注意力矩阵，生成各局部类别令牌特征，将各局部类别令牌特征区分正负性。模型损失不仅包含图像分类、图像语义分割的损失、还包括通过将各局部类别令牌特征区分正负性与全局类别令牌特征一起进行对比学习的损失，通过引入了多种损失对模型的语义分割进行监督，从而提高了语义分割的准确性。义分割的准确性。义分割的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于注意力掩码的弱监督语义分割方法及装置

[0001]本说明书涉及语义分割
，尤其涉及一种基于注意力掩码的弱监督语义分割方法及装置。

技术介绍

[0002]虽然目前最优的图像语义分割方法是采用像素级注释的全监督训练方法，但是密集标注图像中所有像素的标签信息极大的增加人力和时间成本。而弱监督语义分割方法仅仅只需要标注图像中出现物体类别标签的训练数据，人力和时间成本上的优势让弱监督语义分割获得了广泛的关注。
[0003]弱监督语义分割是指利用边界框标注、潦草标注、点标注或图像级类别标注来预测图像中每个像素的类别标签。本专利技术主要研究基于图像级别的标签（如图像中出现物体的类别）对网络进行分类训练，实现模型对图像进行语义分割的一类方法。
[0004]基于图像级分类标注弱监督语义分割方法大多是基于类激活图方法展开。类激活图是一种基于深度分类网络的技术，用来生成通道数与总类别数相同的特征图，显示每个类别物体的近似位置。
[0005]当前,如何提高弱监督语义分割的准确性，则是一个亟待解决的问题。

技术实现思路

[0006]本说明书提供一种基于注意力掩码的弱监督语义分割方法及装置，以部分的解决现有技术存在的上述问题。
[0007]本说明书采用下述技术方案：本说明书提供了一种基于注意力掩码的弱监督语义分割方法，包括：获取样本图像以及所述样本图像对应的图像分类标签；将所述样本图像输入到注意力编码器中，通过所述注意力编码器得到补丁令牌特征与全局类别令牌特征，并通过所述补丁令牌特征

【技术保护点】

【技术特征摘要】
1.一种基于注意力掩码的弱监督语义分割方法，其特征在于，包括：获取样本图像以及所述样本图像对应的图像分类标签；将所述样本图像输入到注意力编码器中，通过所述注意力编码器得到补丁令牌特征与全局类别令牌特征，并通过所述补丁令牌特征，生成对所述样本图像的图像分类结果以及类激活图，通过所述类激活图得到对所述样本图像的第一语义分割结果，以及对所述补丁令牌特征进行解码，得到第二语义分割结果；将所述样本图像再次输入到所述注意力编码器中，生成所述样本图像对应的注意力矩阵以及随机生成目标掩码矩阵，并通过所述目标掩码矩阵对所述注意力矩阵进行补偿，得到补偿后的注意力矩阵，根据所述补偿后的注意力矩阵，生成局部类别令牌特征；根据所述局部类别令牌特征对应的类激活图以及所述目标掩码矩阵，确定未被所述目标掩码矩阵中的掩码影响的类激活图中部分激活值的平均激活值，若所述平均激活值不小于预设阈值，将所述局部类别令牌特征作为正局部类别令牌特征，否则，将该局部类别令牌特征作为负局部类别令牌特征；以最小化所述图像分类结果与所述图像分类标签之间的差异、最小化所述第一语义分割结果与所述第二语义分割结果之间的差异、最小化所述正局部类别令牌特征与所述全局类别令牌特征之间的差异，以及最大化所述负局部类别令牌特征与所述全局类别令牌特征之间的差异为优化目标，对所述注意力编码器进行训练，以通过训练后的注意力编码器对待识别图像进行图像语义分割。2.如权利要求1所述的方法，其特征在于，将所述样本图像输入到注意力编码器中，具体包括：将所述样本图像分割为若干子图像，以确定出所述若干子图像对应的初始补丁令牌特征，以及确定所述样本图像对应的初始类别令牌特征；将所述初始补丁令牌特征与所述初始类别令牌特征拼接，输入到所述注意力编码器中。3.如权利要求1所述的方法，其特征在于，随机生成目标掩码矩阵，具体包括：确定注意力矩阵的尺寸；按照所述尺寸进行预设倍数的下采样，得到采样尺寸，并随机生成所述采样尺寸的初始掩码矩阵；将所述初始掩码矩阵进行所述预设倍数的上采样，得到生成的目标掩码矩阵。4.如权利要求1所述的方法，其特征在于，生成的注意力矩阵包括：查询矩阵、键矩阵以及值矩阵；通过所述目标掩码矩阵对所述注意力矩阵进行补偿，得到补偿后的注意力矩阵，具体包括：通过以下公式确定补偿后的注意力矩阵：通过以下公式确定补偿后的注意力矩阵：
其中，Z为补偿后的注意力矩阵，M为所述目标掩码矩阵，Q为查询矩阵，K为键矩阵，V为值矩阵。5.如权利要求1所述的方法，其特征在于，所述注意力编码器包括若干自注意力编码层；所述方法还包括：获取所述若干自注意力编码层中目标自注意力编码层的输出结果；通过所述输出结果，确定辅助分类结果；以最小化所述辅助分类结果与所述图像分类标签之间的差异为优化目标，对所述注意力编码器进行训练。6.如权利要求1所述的方法，其特征在于，所述注意力编码器包括若干自注意...

【专利技术属性】
技术研发人员：吴方闻，叶玥，王瑾，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人