当前位置: 首页 > 专利查询>天津农学院专利>正文

基于特征细化自监督学习的广义零样本图像分类方法技术

技术编号:37621829 阅读:33 留言:0更新日期:2023-05-18 12:13
本发明专利技术为基于特征细化自监督学习的广义零样本图像分类方法,该方法引入自监督学习任务,为SwinTransformer网络添加了两个分类头,主要用于解决对可见类别的偏见问题。通过旋转角度分类任务和对比学习任务,增强了视觉特征定位,加强了视觉特征和语义信息的相关性,同时为了进一步缓解偏见问题,在训练样本构建中为未见类生成伪标签,从而将GZSL任务设置为直推式学习。推式学习。推式学习。

【技术实现步骤摘要】
基于特征细化自监督学习的广义零样本图像分类方法


[0001]本专利技术属于计算机视觉领域,涉及一种广义零样本图像分类方法,具体涉及一种基于特征细化自监督学习的广义零样本图像分类方法。

技术介绍

[0002]零样本图像分类(Zero

shot Learning,ZSL)指训练集和测试集在数据的类别上没有交集的情况下进行图像分类,旨在于依据可见类别的数据,辅以相关常识信息或者先验知识,实现对未见类别的数据进行预测和识别的一项技术。辅助信息主要是指语义信息,包括人工定义的属性向量,基于机器学习方法自动提取的文本信息,或者是它们之间的组合,语义信息可以在可见类和未见类之间架起一座桥梁。
[0003]在传统的ZSL技术中,测试集只包含来自未见类的样本,在现实世界中,这种设置是不合理的和难以实现的。在实际应用中,可见类的数据样本比未见类的数据样本更加常见,我们需要测试集中既包含未见类样本也包含可见类样本,甚至同时识别包含两个类的样本比只识别未见类样本更加重要。因此,为了进一步适应现实世界,研究者们提出了广义零样本学习(Generalized Zero

Shot Learning,GZSL),它可以同时识别来自可见类和未见类的样本。
[0004]大多数现有的GZSL方法集中在基于嵌入模型和基于生成模型的方法上,嵌入方法侧重于将视觉特征和语义描述嵌入到公共空间中,例如将视觉特征映射到语义空间,并测量两种模态之间的相似性,专利CN 113139591A公开了一种基于增强多模态对齐的广义零样本图像分类方法,也是利用了嵌入方法进行对齐,该方法利用超球面编码器为视觉特征和语义特征构建潜层空间,促使模态对齐;生成模型方法首先训练生成器生成未见类的视觉特征,如生成对抗网络(Generative Adversarial Network,GAN)或变分自编码器(Variational Autoencoders,VAE),然后利用可见类的样本和生成器合成的未见类样本训练分类器以区分不同的类别。中国专利CN113177587A公开了一种基于主动学习和变分自编码器的广义零样本目标分类方法,显著提高了广义零样本的分类准确率。最近,基于注意力方法很受欢迎,因为它们可以直接识别图像中与语义信息相关的部分,从而捕获图像的全局特征和局部信息,然而基于注意力的方法仍不可避免的存在对可见类的偏见问题。
[0005]虽然在GZSL的设置中,可见类和未见类的标签空间不存在交集,但在模型训练过程中,可见域和不可见域仍然存在重叠区域,尤其是在处理细粒度数据集时。例如,虎鲸和座头鲸是在训练阶段可以访问的可见类,海豚是用于测试的未见类。这三个物种共享大量的视觉特征和语义信息,由于GZSL模型在训练阶段只利用可见类数据,一个海豚样本很容易就会被错误地识别为虎鲸和座头鲸,这种现象会导致未见类的分类精度降低,尽管基于注意力的模型可以非常准确地关注语义相关部分,但是仍会偏向于可见类,这是由于模型未能对图像特征中与语义无关的部分进行特殊地处理。

技术实现思路

[0006]为了克服现有技术存在的缺陷与不足,本专利技术提供了一种基于特征细化自监督学习的广义零样本图像分类方法,该方法应用Shifted Windows(Swin)Transformer来提取图像的视觉特征。与现有的Swin Transformer编码器不同,本专利的编码器是基于自监督学习(Self

Supervised Learning,SSL)任务,通过添加两个分类头(token)来分别引入两个自监督任务:(1)旋转角度分类任务和(2)对比学习任务。另外,构建了视觉特征细化模块和语义特征细化模块来对特征进一步细化。视觉特征细化模块主要运用了双线性池化算法使视觉特征进一步适应细粒度数据集,适应细粒度的图像分类,语义特征细化模块主要通过图像自适应特征(Image Adaptive Semantics,IAS)来加强视觉特征和语义信息的相关性,缓解了偏见问题。本专利技术的核心创新点有:一是改进了Swin Transformer模型,添加了两个token来引入自监督学习任务;二是提出了一个全新的对比学习任务,约束了同一图像通过不同的特征提取器(ResNet101和Swin Transformer)后得到的视觉特征在特征空间中距离足够接近,不同图像通过同一特征提取器得到的视觉特征在特征空间中距离足够远。
[0007]为了达到上述目的,本专利技术采用以下技术方案:
[0008]一种基于特征细化自监督学习的广义零样本图像分类方法,该方法包括如下步骤:
[0009](1)获取广义零样本分类模型的图像数据集和语义属性数据集,利用ResNet101网络训练语义属性数据集获得语义特征A;
[0010](2)将图像数据集中的可见类的图像数据集和语义属性数据集用于训练,得到以语义属性为条件的可见类条件视觉分类器,再将未见类的图像数据集和语义属性数据集用于训练,获得以语义属性为条件的未见类的条件视觉分类器;通过可见类的条件视觉分类器获得可见类的权重矩阵W
s
,以可见类的权重矩阵W
s
作为未见类的条件视觉分类器的分类权重,得到未见类图像x
u
的伪标签将得到的伪标签作为未见类的标签,以图像数据集中的未见类图像和通过未见类的条件视觉分类器获得的伪标签构成新的图像数据集,将图像数据集中的可见类的图像数据集、未见类图像和伪标签构成新的图像数据集作为广义零样本分类模型的训练样本,用于后续的分类训练,测试样本包括可见类的图像数据集和有未见类真实标签的未见类的图像数据集。
[0011](3)构建广义零样本分类模型;
[0012]所述广义零样本分类模型包括视觉特征细化模块、语义特征细化模块、添加了两个分类token的Swin Transformer网络和构建的两个自监督学习任务,两个新添加的分类token分别对应两个自监督学习任务:旋转角度分类任务和对比学习任务,其中旋转角度分类任务需要将训练样本随机旋转四个不同的角度,最后预测旋转类别;对比学习任务是将训练样本分别输入ResNet101和Swin Transformer网络中得到经过不同特征提取器提取的视觉特征,通过对比损失函数进行约束。
[0013]构建自监督学习模块:所述自监督学习模块包括旋转角度分类任务和对比学习任务,其中旋转角度分类任务通过一个预测图像旋转角度的前置任务来实现自监督学习,将训练样本中的图像随机旋转四个不同的角度(0
°
,90
°
,180
°
和270
°
),获得具有旋转类别标签的旋转图像数据集,旋转图像数据集输入Swin Transformer网络中以得到旋转图像数据集对应的带旋转信息的视觉特征,用于预测它们的旋转类别;通过Swin Transformer网络
编码得到的带旋转角度的视觉特征只用于预测图像旋转角度,不直接参与到本专利技术后续的网络模型中,但需要对应于S本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特征细化自监督学习的广义零样本图像分类方法,该方法包括如下步骤:(1)获取广义零样本分类模型的图像数据集和语义属性数据集,利用ResNet101网络训练语义属性数据集获得语义特征A;(2)构建一个以图像数据集和语义属性数据集为输入的条件视觉分类器,为未见类的图像生成伪标签,将得到的伪标签作为未见类的标签,以图像数据集中的未见类图像和通过条件视觉分类器获得的伪标签构成新的图像数据集,将图像数据集中的可见类的图像数据集、未见类图像和伪标签构成新的图像数据集作为广义零样本分类模型的训练样本,用于后续的分类训练;(3)构建广义零样本分类模型;所述广义零样本分类模型包括视觉特征细化模块、语义特征细化模块、添加了两个分类token的Swin Transformer网络和构建的两个自监督学习任务,两个新添加的分类token分别对应两个自监督学习任务:旋转角度分类任务和对比学习任务,其中旋转角度分类任务需要将训练样本随机旋转四个不同的角度,最后预测旋转类别;对比学习任务是将训练样本分别输入ResNet101和Swin Transformer网络中得到经过不同特征提取器提取的视觉特征,通过对比损失函数进行约束;构建视觉特征细化模块:所述视觉特征细化模块是基于双线性池化的思想改进的,是特征融合的一种改进方法,本发明采用的是同源双线性池化的方法,视觉特征细化模块的输入是训练样本经Swin Transformer网络后得到的视觉特征x,视觉特征细化模块可以使视觉特征更适用于细粒度数据集,包括哈达玛操作、reshape操作、全连接层和归一化层,具体操作是复制视觉特征x用于后续的特征融合,x初始维度是q,两个视觉特征x经reshape操作后维度分别变换为1
×
q和q
×
1,命名为x1和x2,x1分解为参数矩阵U1和特征向量x2分解为参数矩阵U2和特征向量参数矩阵U1和特征向量的乘积是x1,特征向量和参数矩阵U2的乘积是x2,然后U1和U2经哈达玛操作输入到全局向量层中,和同样经哈达玛操作输入到全局向量层中,并在全局向量层中聚合成全局向量z,再经一个全连接层和归一化操作,输出为细化后的视觉特征构建语义特征细化模块:所述语义特征细化模块称为图像自适应(Image Adaptive Semantics,IAS)模块,IAS模块可以将用于类间区分的原始语义特征与用于类内变化的图像特定注意向量相结合,然后将图像自适应语义特征映射到相对应的视觉空间中,从而提升了GZSL图像分类的准确度。IAS模块包括第1全连接层FC、第1分类函数softmax、哈达玛操作、和操作、第2全连接层、第3全连接层FC、第1归一化层、第2归一化层、第2分类函数softmax,IAS模块的输入为视觉特征细化模块输出的视觉特征和利用ResNet101网络训练语义属性数据集获得的语义特征A,视觉特征经第1全连接层FC、第1分类函数softmax处理后的结果与语义特征执行哈达玛操作、和操作,获得改进后语义特征改进后的语义特征经过第2全连接层FC、第3全连接层FC及第2归一化层处理后与视觉特征x经第2归一化层处理后的结果执行哈达玛操作及第2分类函数softmax处理,将语义特征映射到视觉空间中;以训练样本输入Swin Transformer网络,依次经视觉特征细化模块和IAS模块中,输出
广义零样本图像分类任务的分类类别,训练广义零样本分类模型,广义零样本分类模型的总损失函数L
TOT
为自监督学习的损失函数(旋转角度分类任务的损失函数和对比学习任务的损失函数)和广义零样本分类任务的损失之和,公式表示为:L
TOT
=L
CE
+L
MSE
+L
NCE
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,L
TOT
为广义零样本分类模型的总损失函数,L
CE
为旋转角度分类任务的损失函数,L
MSE
为广义零样本分类任务的损失函数,L
NCE
为对比学习任务的损失函数;广义零样本分类任务的损失函数为:其中,M代表训练样本个数,y
i
和分别代表真实标签和广义零样本图像分类任务的预测标签;旋转角度分类任务的损失函数为:其中,表示旋转角度分类任务的预测标签,a∈{0,1,2,3}代表4个旋转角度;对比学习任务的损失函数为:其中,M代表训练样本个数,x
j
,分别代表训练样本经过ResNet101网络和Swin Transformer网络后的视觉特征,W代表Swin Transformer网络的权重矩阵,代表x
j
,之间的相似性。至此,获得训练好的广义零样本分类模型;(4)利用训练好的广义零样本分类模型对广义零样本图像进行识别,完成广义零样本的分类任务。2.根据权利要求1所述的广义零样本图像分类方法,其特征在于,所述伪标签的获得过程是:将图像数据集中的可见类的图像数据集和语义属性数据集用于训练,得到以语义属性为条件的可见类条件视觉分类器,再将未见类的图像数据集和语义属性数据集用于训练,获得以语义属性为条件的未见类的条件视觉分类器;通过可见类的条件视觉分类器获得可见类的权重矩阵W
s
,以可见类的权重矩阵W
s
作为未见类的条件视觉分类器的分类权重,得到未见类图像x
u
的伪标签3.根据权利要求1所述的广义零样本图像分类方法,其特征在于,所...

【专利技术属性】
技术研发人员:郭迎春张玉朱叶于洋师硕吕华阎刚刘依
申请(专利权)人:天津农学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1