一种基于多向知识迁移的小样本图像分类方法技术

技术编号:35103930 阅读:12 留言:0更新日期:2022-10-01 17:12
本发明专利技术公开了一种基于多向知识迁移的小样本图像分类方法,包括以下步骤:1、视觉与文本特征提取;2、类别间语义关系计算;3、文本知识单向自迁移;4、视觉知识单向自迁移、模态间知识双向互迁移;5、模型训练与测试。本发明专利技术通过在文本端和视觉端分别进行的单向自迁移,以语义推理和视觉幻想的方式从基础类别中完善对新类别的描述,并通过跨模态互迁移交换来自不同模态的知识,使得不同模态间相互学习,共同训练,从而能减轻基础类别和新类别间样本数量差异的影响,缓解不同模态数据间的语义鸿沟,并能提高小样本图像分类的准确度。并能提高小样本图像分类的准确度。并能提高小样本图像分类的准确度。

【技术实现步骤摘要】
一种基于多向知识迁移的小样本图像分类方法


[0001]本专利技术属于图像分类领域,具体的说是一种基于多向知识迁移的小样本图像分类方法。

技术介绍

[0002]近年来,卷积神经网络(CNN)已在图像分类、目标检测等各类视觉任务中展现出强大的性能,但这往往需要依赖大规模的有标注训练数据作为保证。然而海量数据的收集与标注是一项昂贵且耗时的任务,其训练过程也需要耗费巨量的计算资源与时间成本。相反,在人类学习新事物的过程中,人们通过几个样本(甚至一个样本)就可以认识一个从未见过的新物体。这是因为他们已经有大量的知识积累,可以从许多其他相关物体或语义知识中推理学习,进而达到快速图像理解的目的。基于知识迁移的小样本学习(FSL)希望模仿人类的这种能力,通过各种先验知识使得CNN模型在训练样本极为稀缺的情况下也可以对新类别样本有较好的识别能力。
[0003]目前大多数基于知识迁移的小样本学习方法大多使用先验知识来辅助表示学习或分类器优化阶段的训练过程。其中,一类基于视觉知识迁移的方法使用在基础类别(与要识别的新类别不相交但每个类别中的样本数量充足)上训练的CNN来直接提取新类别的特征。他们的目的是通过转移基础类别的纹理结构来帮助描述一个新的类别。然而,由于基础类别的样本数量远远大于新类别的样本数量,在基础类别上训练的CNN更倾向于关注它所学习的物体的纹理和结构,而忽略了新样本的细节,导致分类性能较弱。
[0004]因此,另一类多模态的小样本学习方法尝试从文本信息中提取语义知识,并将其作为知识迁移过程中的额外监督信号,以获得更好的效果。这种方法缓解了仅在硬标签监督下训练的分类器存在的认知偏差。然而它忽略了不同模态数据间的语义鸿沟,并从外部知识中引入了与任务无关的噪声,反而误导了分类器的识别过程。
[0005]基于上述分析,如何减少基础类别和新类别间样本数量不平衡带来的偏差和引入额外语义知识带来的噪声,以及如何更好地结合不同模态之间的知识,使得不同模态间的知识互为补充,相辅相成,是基于知识迁移的小样本学习方法亟待解决的问题。

技术实现思路

[0006]本专利技术是为了解决上述现有技术存在的不足之处,提出一种基于多向知识迁移的小样本图像分类方法,以期能更充分地挖掘与迁移来自基础类别样本及额外文本的先验知识,从而能提高小样本图像分类的准确性。
[0007]本专利技术为达到上述专利技术目的,采用如下技术方案:
[0008]本专利技术一种基于多向知识迁移的小样本图像分类方法的特点是按以下步骤进行:
[0009]步骤1、视觉特征提取:
[0010]步骤1.1、利用预训练的CNN模型获取训练样本的视觉特征及其标签的集合x
i
表示维度为d
v
的第i个训练样本的视觉特征,y
i
表示第i个训练样
本的类别标签,且y
i
∈C
base
,C
base
表示基础类别集合,|C
base
|表示基础类别集合中的类别数量,N
base
表示每个基础类别中的训练样本数量;
[0011]步骤1.2、利用所述预训练的CNN模型获取支持样本的视觉特征及其标签的集合x

i
表示维度为d
v
的第i

个支持样本的视觉特征,y

i
表示第i

个支持样本的类别标签,且y

i
∈C
novel
,C
novel
表示新类别集合,且C
novel
与C
base
无交集,|C
novel
|表示新类别集合中的类别数量,N
novel
表示每个新类别中的支持样本数量;
[0012]步骤2:文本特征提取:
[0013]步骤2.1、利用预训练的词嵌入方法获取基础类别集合C
base
中|C
base
|个基础类别的文本特征t
k
表示维度为d
t
的第k个基础类别的文本特征;
[0014]步骤2.2、利用所述预训练的词嵌入方法获取新类别集合C
novel
中|C
novel
|个新类别的文本特征t

k

表示维度为d
t
的第k

个新类别的文本特征;
[0015]步骤3:计算类别间语义关系:
[0016]步骤3.1、利用式(1)计算第k

个新类别文本特征t

k

和第k个基本类别的文本特征t
k
之间的距离d(t

k

,t
k
):
[0017][0018]步骤3.2、获取与第k

个新类别的文本特征t

k

距离最近的前M个基础类别的文本特征,从而得到第k

个新类别的最近邻集合
[0019]步骤3.3、利用式(2)计算关系矩阵A中第k

行第m列元素a
k

,m
,从而构建关系矩阵A:
[0020][0021]式(2)中,t
m
为最近邻集合中的任意一个基础类别的文本特征,t
v
为最近邻集合中的任意一个基础类别的文本特征;
[0022]步骤4:文本知识单向自迁移:
[0023]步骤4.1、合并T
b
与T
n
得到|C
base
|+|C
novel
|个全体类别的文本特征,并进行L2范数归一化处理,得到(|C
base
|+|C
novel
|)
×
d
t
维的输入特征T;
[0024]步骤4.2、利用式(3)计算在关系矩阵A中存在邻接关系的新类别文本特征t

k

和文本特征t
m
之间的第h个注意力头中的注意力系数从而得到维度为|C
novel
|
×
|C
base
|的注意力系数矩阵σ
h

[0025][0026]式(3)中,为d
v
×
d
t
维的第h个学习参数,[
·
||
·
]表示拼接操作,LeakyReLU表示LeakyReLU激活函数;
[0027]步骤4.3、利用式(4)计算第h个注意力头中维度为|C
novel
|
×
d
v
的新类别集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多向知识迁移的小样本图像分类方法,其特征是按以下步骤进行:步骤1、视觉特征提取:步骤1.1、利用预训练的CNN模型获取训练样本的视觉特征及其标签的集合x
i
表示维度为d
v
的第i个训练样本的视觉特征,y
i
表示第i个训练样本的类别标签,且y
i
∈C
base
,C
base
表示基础类别集合,|C
base
|表示基础类别集合中的类别数量,N
base
表示每个基础类别中的训练样本数量;步骤1.2、利用所述预训练的CNN模型获取支持样本的视觉特征及其标签的集合x

i
表示维度为d
v
的第i

个支持样本的视觉特征,y

i
表示第i

个支持样本的类别标签,且y

i
∈C
novel
,C
novel
表示新类别集合,且C
novel
与C
base
无交集,|C
novel
|表示新类别集合中的类别数量,N
novel
表示每个新类别中的支持样本数量;步骤2:文本特征提取:步骤2.1、利用预训练的词嵌入方法获取基础类别集合C
base
中|C
base
|个基础类别的文本特征t
k
表示维度为d
t
的第k个基础类别的文本特征;步骤2.2、利用所述预训练的词嵌入方法获取新类别集合C
novel
中|C
novel
|个新类别的文本特征t

k

表示维度为d
t
的第k

个新类别的文本特征;步骤3:计算类别间语义关系:步骤3.1、利用式(1)计算第k

个新类别文本特征t

k

和第k个基本类别的文本特征t
k
之间的距离d(t

k

,t
k
):步骤3.2、获取与第k

个新类别的文本特征t

k

距离最近的前M个基础类别的文本特征,从而得到第k

个新类别的最近邻集合步骤3.3、利用式(2)计算关系矩阵A中第k

行第m列元素a
k

,m
,从而构建关系矩阵A:式(2)中,t
m
为最近邻集合中的任意一个基础类别的文本特征,t
v
为最近邻集合中的任意一个基础类别的文本特征;步骤4:文本知识单向自迁移:步骤4.1、合并T
b
与T
n
得到|C
base
|+|C
novel
|个全体类别的文本特征,并进行L2范数归一化处理,得到(|C
base
|+|C
novel
|)
×
d
t
维的输入特征T;步骤4.2、利用式(3)计算在关系矩阵A中存在邻接关系的新类别文本特征t

k

和文本特征t
m
之间的第h个注意力头中的注意力系数从而得到维度为|C
novel
|
×
|C
base
|的注意力系数矩阵σ
h

式(3)中,为d
v
×
d
t
维的第h个学习参数,[
·
||
·
]表示拼接操作,LeakyReLU表示LeakyReLU激活函数;步骤4.3、利用式(4)计算第h个注意力头中维度为|C
novel
|
...

【专利技术属性】
技术研发人员:王硕张新宇何向南郝艳宾
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1