【技术实现步骤摘要】
面向小样本学习的知识蒸馏方法、装置及存储介质
[0001]本专利技术涉及深度学习的计算机视觉应用领域,尤其涉及一种面向小样本学习的知识蒸馏方法、装置及存储介质。
技术介绍
[0002]知识蒸馏方法基于“师生模型”训练范式,通过一个预训练好的教师模型,辅助训练新的学生模型。知识蒸馏技术的应用只需要教师和学生能够产生相似的输出,对二者的具体内部结构并没有强制性的要求。根据学生模型产生方式的不同,知识蒸馏可以大致分为“自蒸馏”和“轻量化蒸馏”两大类别。自蒸馏任务中,学生模型采用与教师模型相同的网络结构,此时要求学生模型训练后的性能可以超过教师模型。而轻量化蒸馏任务中,学生模型的参数规模大幅小于教师模型,此时不强制要求学生模型训练后的性能超过教师,只要优于其在无蒸馏训练时的对照性能,就可以证明蒸馏方法的有效性。
[0003]较传统知识蒸馏方法在应对小样本学习任务时具有局限性,可能导致小样本子任务只包含少量类别且类别顺序随机组合给蒸馏任务造成的不稳定性。
技术实现思路
[0004]专利技术目的:提出一种面向小样 ...
【技术保护点】
【技术特征摘要】
1.一种面向小样本学习的知识蒸馏方法,其特征在于,包括如下步骤:步骤S1、将小样本图像数据集划分为类别空间互不重合的训练集、验证集、测试集;步骤S2、基于常规分类任务预训练教师模型;对教师模型网络执行通道剪枝,得到轻量级的学生模型;步骤S3、采用随机子任务模式进行小样本训练,每次只抽取固定数量的类别构造“N
‑
way K
‑
shot”小样本分类任务,所抽取的图像样本划分为支持集和查询集;步骤S4、每个任务包含的图像样本经过统一预处理后,分别通过教师和学习模型的特征提取网络,得到两组图像特征;步骤S5、学生模型基于自身输出,完成小样本度量分类,并计算分类损失;步骤S6、根据所选蒸馏方法,基于教师模型和学生模型的输出计算蒸馏损失;步骤S7、分类损失与蒸馏损失加权求和,作为整体对学生模型进行回传更新。2.根据权利要求1所述的面向小样本学习的知识蒸馏方法,其特征在于,步骤S1中所述小样本图像数据集包括MiniImageNet数据集和TieredImageNet数据集;其中,所述MiniImageNet数据集包含N个图像类别,每个所述图像类别分别包含M张图像;N个图像类别中,有a个图像类别用作训练,b个类别用作训练过程中的验证,另外c个类别用作最终测试;所述TieredImageNet数据集包含P个图像类别,每个所述图像类别分别包含Q张图像;P个图像类别中,有x个图像类别用作训练,y个类别用作训练过程中的验证,另外z个类别用作最终测试。3.根据权利要求1所述的面向小样本学习的知识蒸馏方法,其特征在于,步骤S2深度网络模型轻量化的过程进一步包括:S2
‑
1、对教师模型使用的完整特征提取网络进行通道剪枝,除最初输入、最后输出通道外,各层I/O通道数减少50%,最终整体网络参数量缩减为原始教师模型的1/3;S2
‑
2、剪枝后的轻量化网络参数重新初始化,作为学生模型从头开始训练;使用十二层残差网络作为教师模型的特征提取网络,在此基础上进行通道剪枝所得的轻量级网络作为学生模型的特征提取网络。4.根据权利要求1所述的面向小样本学习的知识蒸馏方法,其特征在于,步骤S3构建“N
‑
way K
‑
shot”小样本子任务的过程中,每次只抽取固定数量的类别,以及每个类别只包含固定数量的图像样本。5.根据权利要求4所述的面向小样本学习的知识蒸馏方法,其特征在于,对于5way
‑
5shot子任务,抽取5个类别,每个类别包含1张支持集样本和15张查询集样本;对于5way
‑
5shot子任务,抽取5个类别,每个类别包含5张支持集样本和15张查询集样本;每个子任务所包含的类别组合随机。6.根据权利要求1所述的面向小样本学习的知识蒸馏方法,其特征在于,步骤S4中,图像的预处理包括尺寸统一缩放为84*84像素,进行随机数据增广变换,并基于数据集像素均值和方差的统计先验进行标准化;教师模型和学生模型的特征提取网络都是深度神经网络结构,由若干的卷积
‑
池化
‑
激活函数层复合构成;根据特征提取网络末尾是否包含全局池化层,所得特征又分为全局特
...
【专利技术属性】
技术研发人员:李文斌,陈嘉言,任东东,霍静,高阳,余长州,
申请(专利权)人:江苏万维艾斯网络智能产业创新中心有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。