【技术实现步骤摘要】
一种基于知识蒸馏小样本增量学习的图片分类方法及系统
[0001]本专利技术涉及一种图片分类方法及系统,尤其是基于知识蒸馏小样本增量学习的图片分类方法及系统。
技术介绍
[0002]随着人工智能技术的不断发展和应用,增量学习因其强大的适用性逐渐受到了学术界和工业界的关注。增量学习,指的是对于一个已经训练好的模型,在面临新数据时,不需要使用全部数据重新训练整个模型,而是渐进地对模型进行更新。通过不断修正和加强以前的知识,使得模型在新数据上具有泛化性。增量学习降低了模型训练过程中对时间和空间的需求,广泛应用于推荐系统、图片分类等领域中。当前大多数增量学习方法的训练需要大量新类样本,而在现实环境中,受到人力、物力和客观因素的制约,数据获取往往十分困难导致样本量稀少,这严重影响了传统增量学习方法的性能。
[0003]知识蒸馏作为一种重要的学习范式,通过构建一个轻量化的小模型,利用性能更好的大模型的监督信息训练这个轻量化模型,以达到更好的性能和精度。其中来自大模型输出的监督信息称之为知识,而小模型学习迁移来自大模型的监督信息称之 ...
【技术保护点】
【技术特征摘要】
1.一种基于知识蒸馏小样本增量学习的图片分类方法,其特征在于,通过蒸馏网络判断输入图片所属类别,包括如下步骤:(1)将随机初始化的ResNet18作为预热网络,利用所述预热网络计算类别原型,使用基于任务的episode训练策略,对每个episode执行一个小样本分类任务,对所述预热网络进行训练直至收敛;(2)冻结所述预热网络的参数,并将该参数作为增量网络的初始值,利用所述增量网络计算新增类别的类别原型,对每个episode执行一个小样本增量任务,对所述增量网络进行训练直至收敛;(3)冻结所述预热网络和所述增量网络的参数,将所述预热网络和所述增量网络通过知识蒸馏形成蒸馏网络,将所述增量网络的参数作为所述蒸馏网络的初始值,交叉迭代训练所述增量网络和所述蒸馏网络直至收敛;(4)利用所述蒸馏网络计算输入图像与每个类别原型之间的相似度,相似度最高的类别为所述输入图像的所属类别。2.根据权利要求1所述的基于知识蒸馏小样本增量学习的图片分类方法,其特征在于,步骤(1)中利用所述预热网络计算类别原型包括:类别c的类别原型p
c
为:;其中,S
ic 表示小样本分类任务中支持集S
i 中类别为c的数据集,|S
ic | 表示S
ic 的大小, x
t 为小样本分类任务中样本的特征向量,y
t 为对应样本的标签,代表该样本所属的类别;为预热网络。3.根据权利要求2所述的基于知识蒸馏小样本增量学习的图片分类方法,其特征在于,步骤(1)中训练所述预热网络的预热损失函数L
H
为:;其中,Q
i 为小样本分类任务的查询集,x
q 为查询集Q
i 中的新样本,y
q 为对应样本的标签,代表该样本所属的类别;为归一化分类函数,每个类别c的归一化分类分数为,为softmax函数;为权重,每个类别c的权重为,d
c 为类别c中类别原型与其他同类别样本的距离和,m为S
i 中除类别c以外的其他类别。4.根据权利要求1所述的基于知识蒸馏小样本增量学习的图片分类方法,其特征在于,步骤(2)中利用所述增量网络计算新增类别的类别原型包括:新增类别c' 的类别原型p'
c' 为:
;其中,S_new
jc' 表示小样本增量任务中增量支持集S_new
j 中类别为c'的数据集;表示S_new
jc' 的大小,x
t' 为小样本增量任务中样本的特征向量,y
t' 为对应样本的标签,代表该样本所属的类别;为增量网络。5.根据权利要求4所述的基于知识蒸馏小样本增量学习的图片分类方法,其特征在于,步骤(2)中训练所述增量网络的增量损失函数L
R
为:;其中,Q_new
j
为小样本增量任务中的增量查询集,x
q' 为增量查询集Q_new
j
中的新样本,y
q'
为对应样本的标签,代表该样本所属的类别;为权重,为增量网络;;Q_new
jc' 为Q_new
j
中类别为的数据集,x
n
...
【专利技术属性】
技术研发人员:许扬汶,韩冬,刘天鹏,罗广宁,孙腾中,李彦辰,
申请(专利权)人:南京大数据集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。