一种直推式零次学习的未见类图片分类方法、设备及介质技术

技术编号:37469547 阅读:9 留言:0更新日期:2023-05-06 09:48
本发明专利技术公开了一种直推式零次学习的未见类图片分类方法、设备及介质,该方法是使用双向跨模态生成算法,包括视觉

【技术实现步骤摘要】
一种直推式零次学习的未见类图片分类方法、设备及介质


[0001]本专利技术涉及计算机视觉
,尤其涉及零样本学习中的对未见过数据的准确分类。

技术介绍

[0002]零样本学习 (Zero

Shot Learning,ZSL) 最初被提出为计算机视觉中的零数据学习,旨在解决现实中有标签数据难以获取的情况下,模型能够通过对有限的已标注数据学习实现对其从没见过的未见类(unseen classes)的分类。例如,在传统的 ZSL 中,没有为未见类提供训练示例, 但同时提供了大量的训练样例与他们的类别标签配对的数据,这些已匹配的数据类别称为已见类(seen classes)。为了实现对已见类数据学习的知识可以迁移到未见类别上,通常会使用辅助信息作为桥梁来进行知识迁移。这样的辅助信息,例如类别属性(attribute),使用者可以知道特定某个已见类的属性分布,比如对于



这个类别,

它有毛

的属性值为
‘1’


它有鱼鳍

的属性值为
‘0’


它有尾巴

的属性值为
‘1’
等等;对于未见类

海豚



它有毛

的属性值为
‘0’


它有鱼鳍

的属性值为
>‘1’


它有尾巴

的属性值为
‘0’
。该方法通过在已见类数据上对属性知识的学习,来实现利用未见类属性来对这些未见数据的分类,即让模型获得了推理的能力。
[0003]但是完全无训练示例的零样本学习很容易导致领域漂移的问题(domain shift),即模型建模的分布与实际分布存在偏差。因此该专利技术建立在未见类的训练示例可以在模型训练的时候使用,但是其与未见类标签是未匹配的情况下,这也被称为直推式(transductive)零样本学习(TZSL)。注意这样的假设是合理,因为在现实场景下获取大量未标注数据的难度要低很多。
[0004]针对现有的零样本学习,其存在的问题可以总结如下:1、传统的零样本学习有显著的领域漂移问题,由于其无法利用未匹配标签的未见类训练示例来监督模型建模的未见类数据分布,如图1所示。
[0005]2、目前已经有的直推式零样本学习方案十分依赖辅助信息的质量,当辅助信息质量较低时,知识迁移效果不佳,对未见类的分类准确率较低。
[0006]3、基于生成式的直推式零样本学习方案十分依赖未见类别的频率分布先验知识,即给定特定未见类别,需要同时给定它在测试数据中的分布占比,从而才能实现良好的知识迁移结果。对于未见类分布先验未知的情况下,模型的知识迁移能力会极大的坍塌。

技术实现思路

[0007]本专利技术是为了解决上述现有技术存在的不足之处,提出一种直推式零次学习的未见类图片分类方法、设备及介质,以期能将已见类知识的学习准确鲁棒的迁移到未见类的分类当中去,从而能解决现实情况中已标注数据稀少的情形,以满足视觉场景下对数据增广的需求。
[0008]本专利技术的目的是通过以下技术方案实现的:
本专利技术一种直推式零次学习的未见类图片分类方法的特点在于,是按照如下步骤进行:步骤1、构建图像

多语言字幕数据集D = {V
s
, Y
s
, A
s
, V
u
, A
u
};其中,V
s
已见类视觉特征集合,Y
s
表示所述已见类视觉特征集V
s
的标签集合,令n
s
代表已见类视觉特征集合V
s
的样本数目,A
s
代表已见类视觉特征集V
s
的已见类标签集合Y
s
相对应的已见类语义描述向量集合,N
u
代表已见类标签集合Y
s
的种类数目;V
u
表示未见类图像特征集,A
u
表示未见类图像特征集V
u
的未见类标签集合相对应的未见类语义描述向量集合,令n
u
代表未见类标签集合Y
s
的样本数目,令N
u
代表未见类标签集合的种类数目;步骤2、构建基于多层感知机网络的双向式分布对齐方式模型,包括,视觉编码网络E,视觉生成网络G,回归器R,非条件式属性判别器D
a
,条件式视觉判别器D和非条件式视觉判别器D
u
;步骤2.1、构建由回归器R和非条件式属性判别器D
a
组成的视觉

语义对齐模型,并用于实现对视觉特征的语义信息预测;步骤2.2、构建由视觉编码网络E,视觉生成网络G,回归器R,条件式视觉判别器D和非条件式视觉判别器D
u
组成的语义

视觉对齐模型,并用于实现对语义特征的视觉特征解析生成;步骤3、基于图像

多语言字幕数据集D,利用AdamW优化器对所述双向式分布对齐方式模型进行训练,并计算两个总体训练损失函数Loss1和Loss2以更新模型参数,直到Loss1和Loss2收敛为止,从而得到训练好的双向式分布对齐方式模型;步骤4、获取另一未见类的标签数据集,并与未见类语义描述向量集合A
u
一起输入训练好的视觉生成网络G中,以生成一定量的合成数据,从而得到带标签的合成未见类数据;步骤5、基于训练分类器f,并利用训练好的分类器f对未见类图像特征集V
u
分配伪标签,实现对未见类视觉特征的分类。
[0009]本专利技术所述的直推式零次学习的未见类图片分类方法的特点也在于,所述步骤2.1包括:步骤2.1.1、从已见类视觉特征集合V
s
中随机采样得到一个已见类图像特征v
s
输入回归器R中,并经过全连接层的映射后得到输出已见类图像特征表示R(v
s
),将v
s
对应标签y
s
的语义描述a
s
作为监督信号,从而利用式(1)构建已见类监督损失函数:
ꢀꢀꢀ
(1)式(1)中,E表示期望;步骤2.1.2、基于采样分布从未见类语义向量集合A
u
中采样得到一个未见类语义描述向量a
u
并输入回归器R中进行处理,从而得到输出伪未见类语义向量;y表示标签自变量;对a
u
和进行球面插值计算,得到插值后的插值未见类语义向量,且,其中,表示插值分布;将a
u
,和输入所述非条件式属性判别器D
a
中进行处理,并得到真实未见类语
...

【技术保护点】

【技术特征摘要】
1.一种直推式零次学习的未见类图片分类方法,其特征在于,是按照如下步骤进行:步骤1、构建图像

多语言字幕数据集D = {V
s
, Y
s
, A
s
, V
u
, A
u
};其中,V
s
已见类视觉特征集合,Y
s
表示所述已见类视觉特征集V
s
的标签集合,令n
s
代表已见类视觉特征集合V
s
的样本数目,A
s
代表已见类视觉特征集V
s
的已见类标签集合Y
s
相对应的已见类语义描述向量集合,N
u
代表已见类标签集合Y
s
的种类数目;V
u
表示未见类图像特征集,A
u
表示未见类图像特征集V
u
的未见类标签集合相对应的未见类语义描述向量集合,令n
u
代表未见类标签集合Y
s
的样本数目,令N
u
代表未见类标签集合的种类数目;步骤2、构建基于多层感知机网络的双向式分布对齐方式模型,包括,视觉编码网络E,视觉生成网络G,回归器R,非条件式属性判别器D
a
,条件式视觉判别器D和非条件式视觉判别器D
u
;步骤2.1、构建由回归器R和非条件式属性判别器D
a
组成的视觉

语义对齐模型,并用于实现对视觉特征的语义信息预测;步骤2.2、构建由视觉编码网络E,视觉生成网络G,回归器R,条件式视觉判别器D和非条件式视觉判别器D
u
组成的语义

视觉对齐模型,并用于实现对语义特征的视觉特征解析生成;步骤3、基于图像

多语言字幕数据集D,利用AdamW优化器对所述双向式分布对齐方式模型进行训练,并计算两个总体训练损失函数Loss1和Loss2以更新模型参数,直到Loss1和Loss2收敛为止,从而得到训练好的双向式分布对齐方式模型;步骤4、获取另一未见类的标签数据集,并与未见类语义描述向量集合A
u
一起输入训练好的视觉生成网络G中,以生成一定量的合成数据,从而得到带标签的合成未见类数据;骤5、基于训练分类器f,并利用训练好的分类器f对未见类图像特征集V
u
分配伪标签,实现对未见类视觉特征的分类。2.根据权利要求1所述的直推式零次学习的未见类图片分类方法,其特征在于,所述步骤2.1包括:步骤2.1.1、从已见类视觉特征集合V
s
中随机采样得到一个已见类图像特征v
s
输入回归器R中,并经过全连接层的映射后得到输出已见类图像特征表示R(v
s
),将v
s
对应标签y
s
的语义描述a
s
作为监督信号,从而利用式(1)构建已见类监督损失函数:(1)式(1)中,E表示期望;步骤2.1.2、基于采样分布从未见类语义向量集合A
u
中采样得到一个未见类语义描述向量a
u
并输入回归器R中进行处理,从而得到输出伪未见类语义向量;y表示标签自变量;对a
u
和进行球面插值计算,得到插值后的插值未见类语义向量,且,其中,表示插值分布;将a
u
,和输入所述非条件式属性判别器D
a
中进行处理,并得到真实未见类语义判
别分数表示D
a
(a
u<...

【专利技术属性】
技术研发人员:何向南王志才郝艳宾王硕
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1