基于特征细化自监督学习的广义零样本图像分类方法技术

技术编号：37621829 阅读：33 留言：0更新日期：2023-05-18 12:13

本发明专利技术为基于特征细化自监督学习的广义零样本图像分类方法，该方法引入自监督学习任务，为SwinTransformer网络添加了两个分类头，主要用于解决对可见类别的偏见问题。通过旋转角度分类任务和对比学习任务，增强了视觉特征定位，加强了视觉特征和语义信息的相关性，同时为了进一步缓解偏见问题，在训练样本构建中为未见类生成伪标签，从而将GZSL任务设置为直推式学习。推式学习。推式学习。

全部详细技术资料下载

【技术实现步骤摘要】
基于特征细化自监督学习的广义零样本图像分类方法

[0001]本专利技术属于计算机视觉领域，涉及一种广义零样本图像分类方法，具体涉及一种基于特征细化自监督学习的广义零样本图像分类方法。

技术介绍

[0002]零样本图像分类(Zero
‑
shot Learning,ZSL)指训练集和测试集在数据的类别上没有交集的情况下进行图像分类，旨在于依据可见类别的数据，辅以相关常识信息或者先验知识，实现对未见类别的数据进行预测和识别的一项技术。辅助信息主要是指语义信息，包括人工定义的属性向量，基于机器学习方法自动提取的文本信息，或者是它们之间的组合，语义信息可以在可见类和未见类之间架起一座桥梁。
[0003]在传统的ZSL技术中，测试集只包含来自未见类的样本，在现实世界中，这种设置是不合理的和难以实现的。在实际应用中，可见类的数据样本比未见类的数据样本更加常见，我们需要测试集中既包含未见类样本也包含可见类样本，甚至同时识别包含两个类的样本比只识别未见类样本更加重要。因此，为了进一步适应现实世界，研究者们提出了广义零样本学习(Generalized Zero
‑
Shot Learning，GZSL)，它可以同时识别来自可见类和未见类的样本。
[0004]大多数现有的GZSL方法集中在基于嵌入模型和基于生成模型的方法上，嵌入方法侧重于将视觉特征和语义描述嵌入到公共空间中，例如将视觉特征映射到语义空间，并测量两种模态之间的相似性，专利CN 113139591A公开了一种基于增强多模态对齐...

【技术保护点】

【技术特征摘要】
1.一种基于特征细化自监督学习的广义零样本图像分类方法，该方法包括如下步骤：(1)获取广义零样本分类模型的图像数据集和语义属性数据集，利用ResNet101网络训练语义属性数据集获得语义特征A；(2)构建一个以图像数据集和语义属性数据集为输入的条件视觉分类器，为未见类的图像生成伪标签，将得到的伪标签作为未见类的标签，以图像数据集中的未见类图像和通过条件视觉分类器获得的伪标签构成新的图像数据集，将图像数据集中的可见类的图像数据集、未见类图像和伪标签构成新的图像数据集作为广义零样本分类模型的训练样本，用于后续的分类训练；(3)构建广义零样本分类模型；所述广义零样本分类模型包括视觉特征细化模块、语义特征细化模块、添加了两个分类token的Swin Transformer网络和构建的两个自监督学习任务，两个新添加的分类token分别对应两个自监督学习任务：旋转角度分类任务和对比学习任务，其中旋转角度分类任务需要将训练样本随机旋转四个不同的角度，最后预测旋转类别；对比学习任务是将训练样本分别输入ResNet101和Swin Transformer网络中得到经过不同特征提取器提取的视觉特征，通过对比损失函数进行约束；构建视觉特征细化模块：所述视觉特征细化模块是基于双线性池化的思想改进的，是特征融合的一种改进方法，本发明采用的是同源双线性池化的方法，视觉特征细化模块的输入是训练样本经Swin Transformer网络后得到的视觉特征x，视觉特征细化模块可以使视觉特征更适用于细粒度数据集，包括哈达玛操作、reshape操作、全连接层和归一化层，具体操作是复制视觉特征x用于后续的特征融合，x初始维度是q，两个视觉特征x经reshape操作后维度分别变换为1
×
q和q
×
1，命名为x1和x2，x1分解为参数矩阵U1和特征向量x2分解为参数矩阵U2和特征向量参数矩阵U1和特征向量的乘积是x1，特征向量和参数矩阵U2的乘积是x2，然后U1和U2经哈达玛操作输入到全局向量层中，和同样经哈达玛操作输入到全局向量层中，并在全局向量层中聚合成全局向量z，再经一个全连接层和归一化操作，输出为细化后的视觉特征构建语义特征细化模块：所述语义特征细化模块称为图像自适应(Image Adaptive Semantics,IAS)模块，IAS模块可以将用于类间区分的原始语义特征与用于类内变化的图像特定注意向量相结合，然后将图像自适应语义特征映射到相对应的视觉空间中，从而提升了GZSL图像分类的准确度。IAS模块包括第1全连接层FC、第1分类函数softmax、哈达玛操作、和操作、第2全连接层、第3全连接层FC、第1归一化层、第2归一化层、第2分类函数softmax，IAS模块的输入为视觉特征细化模块输出的视觉特征和利用ResNet101网络训练语义属性数据集获得的语义特征A，视觉特征经第1全连接层FC、第1分类函数softmax处理后的结果与语义特征执行哈达玛操作、和操作，获得改进后语义特征改进后的语义特征经过第2全连接层FC、第3全连接层FC及第2归一化层处理后与视觉特征x经第2归一化层处理后的结果执行哈达玛操作及第2分类函数softmax处理，将语义特征映射到视觉空间中；以训练样本输入Swin Transformer网络，依次经视觉特征细化模块和IAS模块中，输出
广义零样本图像分类任务的分类类别，训练广义零样本分类模型，广义零样本分类模型的总损失函数L
TOT
为自监督学习的损失函数(旋转角度分类任务的损失函数和对比学习任务的损失函数)和广义零样本分类任务的损失之和，公式表示为：L
TOT
＝L
CE
+L
MSE
+L
NCE
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中，L
TOT
为广义零样本分类模型的总损失函数，L
CE
为旋转角度分类任务的损失函数，L
MSE
为广义零样本分类任务的损失函数，L
NCE
为对比学习任务的损失函数；广义零样本分类任务的损失函数为：其中，M代表训练样本个数，y
i
和分别代表真实标签和广义零样本图像分类任务的预测标签；旋转角度分类任务的损失函数为：其中，表示旋转角度分类任务的预测标签，a∈{0,1,2,3}代表4个旋转角度；对比学习任务的损失函数为：其中，M代表训练样本个数，x
j
,分别代表训练样本经过ResNet101网络和Swin Transformer网络后的视觉特征，W代表Swin Transformer网络的权重矩阵，代表x
j
,之间的相似性。至此，获得训练好的广义零样本分类模型；(4)利用训练好的广义零样本分类模型对广义零样本图像进行识别，完成广义零样本的分类任务。2.根据权利要求1所述的广义零样本图像分类方法，其特征在于，所述伪标签的获得过程是：将图像数据集中的可见类的图像数据集和语义属性数据集用于训练，得到以语义属性为条件的可见类条件视觉分类器，再将未见类的图像数据集和语义属性数据集用于训练，获得以语义属性为条件的未见类的条件视觉分类器；通过可见类的条件视觉分类器获得可见类的权重矩阵W
s
，以可见类的权重矩阵W
s
作为未见类的条件视觉分类器的分类权重，得到未见类图像x
u
的伪标签3.根据权利要求1所述的广义零样本图像分类方法，其特征在于，所...

【专利技术属性】
技术研发人员：郭迎春，张玉，朱叶，于洋，师硕，吕华，阎刚，刘依，
申请(专利权)人：天津农学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人