可切换在线知识蒸馏的图像分类方法、装置及可存储介质制造方法及图纸

技术编号:35068253 阅读:17 留言:0更新日期:2022-09-28 11:27
本发明专利技术公开了一种可切换在线知识蒸馏的图像分类方法、装置及可存储介质,涉及机器学习技术领域,其中方法包括以下步骤:获取待处理图像;构建老师网络以及学生网络,并确定所述老师网络与所述学生网络之间的蒸馏差距;确定所述蒸馏差距的自适应切换阈值,利用所述自适应切换阈值实现所述老师网络与所述学生网络的交互学习切换,实现所述学生网络的压缩;利用经过上述处理的所述学生网络对所述待处理图像进行分类;本发明专利技术所获得的压缩学生模型具有图像识别准确率高、存储空间小以及识别速度快等优势。度快等优势。度快等优势。

【技术实现步骤摘要】
可切换在线知识蒸馏的图像分类方法、装置及可存储介质


[0001]本专利技术涉及机器学习
,更具体的说是涉及一种可切换在线知识蒸馏的图像分类方法、装置及可存储介质。

技术介绍

[0002]目前,在线知识蒸馏通过互利互惠的方式,利用学生与老师网络之间的差异性,来改善他们的性能。
[0003]但是,在线知识蒸馏通过互利互惠的方式,利用学生与老师网络之间的差异性,以此提升小型、压缩学生网络的图像分类性能,而当前已有的常规网络模型,往往面临着存储资源需求大、计算复杂度高以及图像识别延迟度高等问题。
[0004]因此,如何提供一种能够解决上述问题的可切换在线知识蒸馏的图像分类方法是本领域技术人员亟需解决的问题。

技术实现思路

[0005]有鉴于此,本专利技术提供了一种可切换在线知识蒸馏的图像分类方法、装置及可存储介质,所获得的压缩学生模型具有图像识别准确率高、存储空间小以及识别速度快(网络推理延迟低)等优势。
[0006]为了实现上述目的,本专利技术采用如下技术方案:
[0007]一种基于可切换在线知识蒸馏的图像分类方法,包括以下步骤:
[0008]获取待处理图像;
[0009]构建老师网络以及学生网络,并确定所述老师网络与所述学生网络之间的蒸馏差距;
[0010]确定所述蒸馏差距的自适应切换阈值,利用所述自适应切换阈值实现所述老师网络与所述学生网络的交互学习切换,实现所述学生网络的压缩;
[0011]利用经过上述处理的所述学生网络对所述待处理图像进行分类。
[0012]优选的,利用所述自适应切换阈值实现所述老师网络与所述学生网络交互学习切换的具体过程包括:
[0013]当所述蒸馏差距大于等于所述自适应切换阈值时,所述老师网络暂停学习,同时所述学生网络向所述老师网络学习,定义为专家模式;
[0014]当所述蒸馏差距小于所述自适应切换阈值时,所述学生网络与所述老师网络互相学习,定义为学习模式。
[0015]优选的,所述学习模式的具体过程包括:
[0016]利用CE损失训练所述老师网络,确定所述老师网络与所述学生网络之间的损失函数,具体表达式为:
[0017][0018][0019]式中,α为平衡超参数,L
CE
为CE损失,与分别是老师网络与学生网络的预测,l表示学习模式,表示学习模式下老师网络的损失函数,表示学习模式下学生网络的损失函数,L
KL
表示KL散度,τ表示温度参数;
[0020]将所述老师网络的损失函数进行重写,具体表达式为:
[0021][0022]式中,β表示平衡超参数;
[0023]确定所述老师网络及所述学生网络的损失函数对应的梯度,具体表达式为:
[0024][0025][0026]式中,z
t
表示老师网络的逻辑输出,z
s
表示学生网络的逻辑输出;
[0027]基于所述自适应切换阈值实现模式切换。
[0028]优选的,所述专家模式的具体过程包括:
[0029]确定所述学生网络的损失,具体表达式为:
[0030][0031]式中,表示专家模式下学生网络的损失函数,上标e表示专家模式;
[0032]确定所述学生网络的损失对应的梯度,具体表达式为:
[0033][0034]式中,表示专家模式下老师网络的预测,表示专家模式下学生网络的预测;
[0035]基于所述自适应切换阈值实现模式切换。
[0036]优选的,确定所述老师网络与所述学生网络之间的蒸馏差距的具体表达式为:
[0037][0038]式中,G表示蒸馏差距,τ表示温度参数,表示老师网络的软化输出,表示学生网络的软化输出,K表示样本x的类别数目,k为软化输出的第k个元素,s、t分别表示学生与老师网络输出的下标。
[0039]优选的,所述自适应切换阈值的具体表达式为:
[0040][0041]式中,δ表示自适应切换阈值,y是输入图片的真实类别标签。
[0042]进一步,本专利技术还提供一种利用上述任一项所述的一种基于可切换在线知识蒸馏的图像分类方法的图像分类装置,包括:
[0043]获取模块,用于获取待处理图像;
[0044]构建模块,用于构建老师网络以及学生网络,并确定所述老师网络与所述学生网络之间的蒸馏差距;
[0045]切换模块,用于确定所述蒸馏差距的自适应切换阈值,利用所述自适应切换阈值实现所述老师网络与所述学生网络交互学习切换,实现所述学生网络的压缩;
[0046]分类模块,用于利用经过上述处理的所述学生网络对所述待处理图像进行分类。
[0047]进一步,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的图像分类方法。
[0048]经由上述的技术方案可知,与现有技术相比,本专利技术公开提供了一种可切换在线知识蒸馏的图像分类方法、装置及可存储介质,可切换的在线知识蒸馏的核心思想为自适应地校准训练阶段的差距(命名为蒸馏差距),通过在专家模式(暂停老师而保持学生的学习)与学习模式(重启老师的训练)间的一种切换策略来实现。为了拥有合适的蒸馏差距,进一步设计了一种自适应的切换阈值,给什么时候切换到学习或专家模式提供了正式的标准,从而改善学生网络的性能,并可提高后续图像分类的精度。
附图说明
[0049]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0050]图1为本专利技术提供的可切换在线知识蒸馏的图像分类方法的整体流程图;
[0051]图2为本专利技术提供的可切换在线知识蒸馏的图像分类装置的结构原理框图;
[0052]图3为本专利技术实施例提供的可切换在线知识蒸馏的整体流程执行图;
[0053]图4(a)为本专利技术实施例提供的测试准确率与损失的曲线图;
[0054]图4(b)为本专利技术实施例提供的测试准确率与损失的曲线图;
[0055]图4(c)为本专利技术实施例提供的从学生网络的角度的CE损失与KL损失的曲线图;
[0056]图4(d)为本专利技术实施例提供的CE损失与KL损失梯度的L1范数的曲线图;
[0057]图4(e)为本专利技术实施例提供的参数r变化的验证图;
[0058]图4(f)为本专利技术实施例提供的参数r变化的验证图。
具体实施方式
[0059]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于可切换在线知识蒸馏的图像分类方法,其特征在于,包括以下步骤:获取待处理图像;构建老师网络以及学生网络,并确定所述老师网络与所述学生网络之间的蒸馏差距;确定所述蒸馏差距的自适应切换阈值,利用所述自适应切换阈值实现所述老师网络与所述学生网络的交互学习切换,实现所述学生网络的压缩;利用经过上述处理的所述学生网络对所述待处理图像进行分类。2.根据权利要求1所述的一种基于可切换在线知识蒸馏的图像分类方法,其特征在于,利用所述自适应切换阈值实现所述老师网络与所述学生网络交互学习切换的具体过程包括:当所述蒸馏差距大于等于所述自适应切换阈值时,所述老师网络暂停学习,同时所述学生网络向所述老师网络学习,定义为专家模式;当所述蒸馏差距小于所述自适应切换阈值时,所述学生网络与所述老师网络互相学习,定义为学习模式。3.根据权利要求2所述的一种基于可切换在线知识蒸馏的图像分类方法,其特征在于,所述学习模式的具体过程包括:利用CE损失训练所述老师网络,确定所述老师网络与所述学生网络之间的损失函数,具体表达式为:具体表达式为:式中,α为平衡超参数,L
CE
为CE损失,与分别是老师网络与学生网络的预测,l表示学习模式,表示学习模式下老师网络的损失函数,表示学习模式下学生网络的损失函数,L
KL
表示KL散度,τ表示温度参数;将所述老师网络的损失函数进行重写,具体表达式为:式中,β表示平衡超参数;确定所述老师网络及所述学生网络的损失函数对应的梯度,具体表达式为:确定所述老师网络及所述学生网络的损失函数对应的梯度,具体表达式为:式中,z
t
表示老师网络的逻辑输出,z
s
表示学生网络的逻辑输出;基于所述自适应...

【专利技术属性】
技术研发人员:王杨钱彪刘海鹏汪萌
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1