【技术实现步骤摘要】
基于多尺度与跨模态注意力机制的多标签图像分类方法
[0001]本专利技术涉及多标签图像分类领域,具体涉及一种基于多尺度与跨模态注意力机制的多标签图像分类方法。
技术介绍
[0002]如今,多标签图像分类(Multi
‑
label image classification)在计算机视觉领域得到了日渐广泛的应用,包括多目标识别、情感分析、医疗诊断识别等。由于每张图像中都包含多个对象,因此如何有效地学习这些对象之间的关联关系、以及如何将这些关系与图像特征进行融合依然充满着挑战性。关于如何学习标签特征上,主流的方法主要是通过简单的全连接网络学习以及近年流行的图神经网络,全连接网络学习对标签依赖关系的表征能力较弱,而图神经网络网络对于标签依赖关系的学习上具有天然优势。在如何挖掘图像特征和标签特征之间的关系上,有多种方法,不管是直接将图像特征和标签特征进行点乘运算,还是将图像特征和标签特征进行跨模态融合,还是直接将图像特征作为标签特征的组成部分进行关系学习,或者是将标签特征嵌入图像特征的学习过程中等等。这些方法都是将全 ...
【技术保护点】
【技术特征摘要】
1.基于多尺度与跨模态注意力机制的多标签图像分类方法,其特征在于,包括以下步骤:S1、构建标签图并通过图卷积神经网络学习标签特征;S2、获取待分类图像,采用预训练好的卷积神经网络中提取图像特征;S3、构建分类模型,包括MSML
‑
GCN模块和GCN
‑
SGA模块,分别将得到的标签特征和图像特征输入MSML
‑
GCN模块和GCN
‑
SGA模块中进行特征融合计算;S4、将MSML
‑
GCN模块和GCN
‑
SGA模块得到的预测结果进行融合,得到最终预测标签,并使用多标签分类损失函数对分类模型进行迭代训练,得到训练好的分类模型;S5、将步骤S2中提取的待分类图像的图像特征输入训练好的分类模型,得到多标签图像分类结果。2.根据权利要求1所述的基于多尺度与跨模态注意力机制的多标签图像分类方法,其特征在于,步骤S1中,获取第一训练集,统计各类标签在第一训练集中出现的次数,根据每类标签在第一训练集中出现的次数计算任意两类标签之间的条件概率,所有条件概率构成关系矩阵A,将获取的标签词向量矩阵H和关系矩阵A输入到图卷积神经网络(GCN)中,以获得所有C类标签对应的共现关系词向量矩阵W。3.根据权利要求2所述的基于多尺度与跨模态注意力机制的多标签图像分类方法,其特征在于,步骤S1具体包括以下步骤:S1.1、对各类标签在第一训练集中出现的次数以及任意两类标签在第一训练集中同时出现的次数进行统计,获取任意两类标签之间的条件概率,具体如下:P
ij
=P(o
i
|o
j
)=T
ij
/T
j
;其中,T
i
和T
j
分别表示一类标签o
i
和另一类标签o
j
在第一训练集中出现的次数,T
ij
表示标签o
i
和标签o
j
同时在第一训练集中出现的次数,i和j均为正整数,且i和j均∈[1,C],C为标签的总类数;P
ij
表示在标签o
j
出现的条件下,标签o
i
出现的概率;S1.2、将得到的任意两类标签之间的条件概率构建为C
×
C维关系矩阵A;使用阈值ε对关系矩阵A进行二值化处理,ε∈[0,1],得到二值化后的关系矩阵A
ij
:S1.3、使用阈值δ对二值化后的关系矩阵A
ij
进行处理,δ∈[0,1],生成对最终的关系矩阵A
‘
ij
:S1.4、对最终的关系矩阵A
‘
ij
进行标准化,具体如下:进行标准化,具体如下:
其中,I
c
是单位矩阵,是对角矩阵且满足S1.5、将标准化的关系矩阵输入图卷积神经网络(GCN)中,以获取图卷积神经网络(GCN)中第l+1层的共现关系词向量矩阵H
l+1
,其中l∈[0,1],最终得到的共现关系词向量矩阵H
l+1
就是学习到的所有C类标签对应的共现关系标签特征:其中,H
l
,W
l
和h分别表示图卷积神经网络(GCN)中第l层的输出特征矩阵、第l层的权重矩阵和第l层的非线性激活函数,初始的H0为与训练好的词向量。4.根据权利要求3所述的基于多尺度与跨模态注意力机制的多标签图像分类方法,其特征在于,步骤S2包括以下步骤:S2.1、获取待分类图像并将该待分类图像转换为多维张量;获取由N张图像所构成的第二训练集和由K张图像构成的测试集;S2.2、将由第二训练集的图片转化来的N张多维张量一张一张输入到ResNet
‑
101网络中,以从ResNet
‑
101网络的池化层提取第二训练集中每张图像x{x1,x2,
…
,xN}的D维特征向量:X=F
gmp
(F
cnn
(x,θ
cnn
));其中N和K为自然数,且N>K,F
gmp
表示全局最大池化操作,F
cnn
表示ResNet
‑
101网络,θ
cnn
表示ResNet
‑
101网络的参数,D=2048,1024,512,256,表示ResNet
‑
101网络从浅到深每一卷积层的输出维度;X为表示对应ResNet
‑
10...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。