基于注意力机制和双重对比学习的多标签图像分类方法技术

技术编号：41502017 阅读：20 留言：0更新日期：2024-05-30 14:44

本发明专利技术公开了基于注意力机制和双重对比学习的多标签图像分类方法，涉及图像分类技术领域，解决了现有技术通过图卷积网络传播节点消息捕获标签相关性而获取的模型性能会受到标签噪声和偶尔共现的影响，以及现有技术只考虑了类间关系而忽略了类内关系，导致标签的传播和标签的关联准确性变低的技术问题；本发明专利技术通过特征提取模块、语义引导注意模块、空间感知注意模块和双重对比学习模块构建多标签图像分类模型，在学习特定类别的特征时隐式地捕获语义相关性，得到更具判别性的标签级特征表示；此外本发明专利技术通过引入双重对比学习优化标签级特征，充分考虑了复杂的类内和类间关系，显著地提高了多标签图像分类模型的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于多标签图像分类领域，涉及注意力机制和双重对比学习技术，具体是基于注意力机制和双重对比学习的多标签图像分类方法。

技术介绍

1、多标签图像分类是计算机视觉中的一项基本且具有挑战性的任务，旨在预测图像中存在的多个对象；在现实世界中，一个场景通常具有多个对象和属性，因此，与单标签图像分类相比，多标签图像分类具有更广泛的现实应用；例如，在医学诊断中，胸部x光片(cxr)是诊断胸部疾病常用的筛查技术之一，多标签图像分类模型可以根据患者的cxr图像自动预测患者可能的疾病，如肺不张、不透明、实变等。

2、由于多标签图像中存在多个目标和丰富的语义信息，传统的方法将多标签图像分类问题转化为一系列单标签分类问题，而没有对标签相关性进行建模，这极大地影响了分类性能，此外，准确定位图像中的目标区域有助于提取与类别相对应的空间特征，因此，建模标签相关性以及标签与对象区域之间的相关性对提高分类性能具有重要意义。

3、现有技术通过图卷积网络传播节点消息捕获标签相关性，在这些基于图的方法中，标签相关矩阵通常是通过计算训练数据中标签对的共现来获得的；然而，模型的性能会受到标签噪声和偶尔共现的影响，此外现有技术只考虑了类间关系(图像内)，忽略了类内关系(交叉图像)，导致标签的传播和标签的关联准确性变低；除了对标签相关性进行建模外，研究人员还提出了基于图像空间信息的多标签图像分类方法；ms-cma提出跨模态注意力，通过计算空间特征与语义标签的相似度，来衡量各个位置的重要程度。sst提出直接对特征的空间关系进行建模；然而上述方法很

技术实现思路

1、本专利技术旨在至少解决现有技术中存在的技术问题之一；为此，本专利技术提出了基于注意力机制和双重对比学习的多标签图像分类方法，用于解决现有技术通过图卷积网络传播节点消息捕获标签相关性，然而，模型的性能会受到标签噪声和偶尔共现的影响，此外现有技术只考虑了类间关系，忽略了类内关系，导致标签的传播和标签的关联准确性变低技术问题。

2、为实现上述目的，本专利技术的第一方面提供了基于注意力机制和双重对比学习的多标签图像分类方法，包括：

3、步骤一：获取多标签图像样本并对图像进行预处理，得到处理图像；其中，预处理包括：随机翻转、裁剪和提取多标签图像样本的真实标签向量；

4、步骤二：提取处理图像中的标签词嵌入向量，基于标签词嵌入向量构建标签语义相关矩阵；

5、步骤三：通过特征提取模块、语义引导注意模块、空间感知注意模块和双重对比学习模块构建多标签图像分类模型，并对多标签图像分类模型进行预测，得到每个标签的预测分数；

6、步骤四：通过分类损失和双重对比损失对多标签图像分类模型进行训练优化，得到目标模型；通过目标模型对待分析的多标签图像进行分类。

7、优选的，所述提取处理图像中的标签词嵌入向量，基于标签词嵌入向量构建标签语义相关矩阵，包括：

8、通过词嵌入模型获取处理图像中每个标签对应的标签词嵌入向量，标记为e；其中，e＝[e1,e2,…,ec]∈rc×d'，ei指的是e的每个分量，表示长度为d'的第i个标签的词嵌入向量，c是标签的数量，词嵌入模型包括：glove或word2vec；

9、基于余弦相似度算法计算标签词嵌入向量之间的余弦相似度来构建标签语义相关矩阵。

10、优选的，所述特征提取模块用于提取两个特征表示xc和xs，包括：

11、a1：通过使用深度卷积神经网络作为特征提取器，输入图像标记为i∈r3×h×w至特征提取器，得到由深度卷积神经网络最后一个卷积块输出的特征图，标记为x0∈rd×h×w；其中，3表示图像有三个颜色通道，h是输入图像的高，w是输入图像的宽，d是特征图的通道数，h是特征图的高，w是特征图的宽，深度卷积神经网络包括：resnet101或vggnet；

12、a2：通过对特征图x0做维度变换得到图像的空间特征，标记为xs∈rhw×d；其中xs是特征图每个位置的特征表示，hw是图像空间特征高与宽的乘积，d是图像空间特征的通道数；

13、a3：通过对特征图x0执行1×1的卷积操作，将特征图的通道数由d变成标签数c并做维度变换得到特征表示xc∈rc×hw；

14、a4：将特征表示xc发送到语义引导注意模块，特征表示xs发送到空间感知注意模块。

15、优选的，所述语义引导注意模块用于获取特征表示xl，包括：

16、将语义相关矩阵标记为m∈rc×c并作为掩码，特征表示xc作为查询矩阵、键矩阵和值矩阵，通过多头掩码注意机制学习得到特定类别的特征表示，标记为xl∈rc×hw；其中，特定类别是指实际所需分类的多标签图像的类别。

17、需要说明的是，所述特征表示xc作为查询矩阵、键矩阵和值矩阵，其中查询矩阵用于确定哪些键与目标最相关，键矩阵存储了各种特征表示，值矩阵与键矩阵相对应，存储了每个特征表示的实际值；

18、所述通过多头掩码注意机制学习得到特定类别的特征表示，是指从特征表示xc中筛选出与实际所需分类的多标签图像的类别最相关的特征表示。

19、本专利技术通过引入语义相关矩阵使标签的语义关系参与到注意分数的计算中，使得在学习高级的特定类别的特征表示时隐式地捕获标签的语义相关性。

20、优选的，所述空间感知注意模块用于获取标签级特征表示h，包括：

21、将特定类别的特征xl与标签词嵌入向量ei相加，得到增强的标签词嵌入向量，标记为e'∈rc×d'；

22、将e'作为查询矩阵，图像的空间特征xs作为键矩阵和值矩阵，通过多头交叉注意机制捕获图像视觉特征的每个位置与语义标签嵌入之间的相关性，得到图像的标签级特征表示，标记为h∈rc×d'；其中h＝[h1,h2,…,hc]∈rc×d'，hi指的是h的每个分量，表示长度为d'的第i个标签的特征表示。

23、优选的，所述双重对比学习模块用于获取投影后的标签级特征表示z，包括：

24、实例对比学习和类别原型对比学习；

25、将空间感知注意模块中得到的标签级特征表示h投影到统一的向量空间进行双重对比学习，得到每张图像投影后的标签级特征表示z。

26、现有技术由于多标签图像分类通常包含多个类别，这使得在图像级定义正负样本就会很有挑战；

27、本专利技术通过实例对比学习和类别原型对比学习的双重对比学习，将空间感知注意模块中得到的标签级特征表示投影到统一的向量空间进行双重对比学习，以解决上述问题。

28、优选的，所述对多标签图像分类模型进行预测，得到每个标签的预测分数，包括：

29、将标签级特征表示hi的每个标签作为一个二元分类任务，通过使用线性投影层和sigmoid激活函数得到每个标签的预测分数，公式为：

30、

31、其中是标签i可学习的权重，bi是偏差。

32、优选的，所述通本文档来自技高网...

【技术保护点】

1.基于注意力机制和双重对比学习的多标签图像分类方法，其特征在于，包括：

2.根据权利要求1所述的基于注意力机制和双重对比学习的多标签图像分类方法，其特征在于，所述提取处理图像中的标签词嵌入向量，基于标签词嵌入向量构建标签语义相关矩阵，包括：

3.根据权利要求1所述的基于注意力机制和双重对比学习的多标签图像分类方法，其特征在于，所述特征提取模块用于提取两个特征表示XC和XS，包括：

4.根据权利要求1所述的基于注意力机制和双重对比学习的多标签图像分类方法，其特征在于，所述语义引导注意模块用于获取特征表示XL，包括：

5.根据权利要求1所述的基于注意力机制和双重对比学习的多标签图像分类方法，其特征在于，所述空间感知注意模块用于获取标签级特征表示Hi，包括：

6.根据权利要求1所述的基于注意力机制和双重对比学习的多标签图像分类方法，其特征在于，所述双重对比学习模块用于获取投影后的标签级特征表示Z，包括：

7.根据权利要求1所述的基于注意力机制和双重对比学习的多标签图像分类方法，其特征在于，所述对多标签图像分类模型

8.根据权利要求1所述的基于注意力机制和双重对比学习的多标签图像分类方法，其特征在于，所述通过分类损失和双重对比损失对多标签图像分类模型进行训练优化，包括：

9.根据权利要求8所述的基于注意力机制和双重对比学习的多标签图像分类方法，其特征在于，所述总体损失L包括分类损失、实例对比学习损失和类别原型对比损失，包括：

...

【技术特征摘要】

1.基于注意力机制和双重对比学习的多标签图像分类方法，其特征在于，包括：

3.根据权利要求1所述的基于注意力机制和双重对比学习的多标签图像分类方法，其特征在于，所述特征提取模块用于提取两个特征表示xc和xs，包括：

4.根据权利要求1所述的基于注意力机制和双重对比学习的多标签图像分类方法，其特征在于，所述语义引导注意模块用于获取特征表示xl，包括：

5.根据权利要求1所述的基于注意力机制和双重对比学习的多标签图像分类方法，其特征在于，所述空间感知注意模块用于获取标签...

【专利技术属性】
技术研发人员：黄俊，王典，洪旭东，陈峰，
申请(专利权)人：安徽工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人