当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于学生反馈的无数据知识蒸馏方法技术

技术编号:35780568 阅读:24 留言:0更新日期:2022-12-01 14:25
一种基于学生反馈的无数据知识蒸馏方法,具体涉及一种用于图像分类的基于学生反馈的无数据知识蒸馏方法。包括如下步骤:S1:初始化学生模型,并在学生模型的特征提取器后添加一个辅助分类器S2:利用辅助分类器反馈学生模型的当前学习能力,并同时根据学生反馈和教师反馈的损失函数联合训练噪声向量和生成器,从而获得最佳合成图片;S3:利用在S2中获得的合成图片通过知识蒸馏训练学生模型,并同时独立训练辅助分类器学习辅助任务;S4:重复S2和S3,直至学生模型被训练至收敛。本发明专利技术在无原始训练数据的情况下,根据学生模型的当前状态自适应地调整合成图片的内容,为学生模型量身定做合成图片,从而更加有效地训练学生模型以至提高最终表现。最终表现。最终表现。

【技术实现步骤摘要】
一种基于学生反馈的无数据知识蒸馏方法


[0001]本专利技术涉及知识蒸馏
,具体涉及一种基于学生反馈的无数据知识蒸馏方法。

技术介绍

[0002]近年来,卷积神经网络在各种实际应用中取得了显著的成功。但其昂贵的存储和计算成本使得在移动设备上部署模型变得困难。因此,Hinton等人提出知识蒸馏技术实现模型压缩,其主要思想是将暗知识从预训练好的重量级的教师模型迁移至轻量级的学生模型。
[0003]典型的知识蒸馏方法都基于一个强有力的前提,即用于训练教师模型的原始数据可直接用于训练学生模型。然而,在某些实际场景中,由于隐私、知识产权或数据集庞大等原因,数据不会公开共享,由此,无数据知识蒸馏被提出解决这一问题。现有的相关工作主要是利用教师模型的反馈来实现图片合成,然后利用合成图片来代替原始图片进行知识蒸馏过程。
[0004]然而,现有工作在图片合成过程中并没有显示地考虑学生的学习能力,合成的图片可能陷入相对于学生当前能力过于简单的境地,从而导致学生模型学习不到新知识,因此削弱模型的最终表现。

技术实现思路

[0005]本专利技术的主要目的在于克服现有技术中的上述缺陷,提出一种基于学生反馈的无数据知识蒸馏方法,利用一个自监督增强的辅助任务估计学生当前的学习能力,从而自适应地调整合成图片的内容,产生对于学生模型困难的样本,使得学生模型持续性获取新知识,以提高学生模型的最终表现。
[0006]本专利技术采用如下技术方案:
[0007]一种基于学生反馈的无数据知识蒸馏方法,包括如下步骤:
[0008]S1:初始化学生模型,并在学生模型的特征提取器后添加一个辅助分类器;
[0009]S2:利用辅助分类器反馈学生模型的当前学习能力,并同时根据学生反馈和教师反馈的损失函数联合训练噪声向量和生成器,从而获得最佳合成图片;
[0010]S3:利用在S2中获得的合成图片通过知识蒸馏训练学生模型,并同时独立训练辅助分类器学习辅助任务;
[0011]S4:重复S2和S3,直至学生模型被训练至收敛。
[0012]具体地,所述S2中利用辅助分类器反馈学生模型的当前学习能力,具体过程包括:
[0013]随机生成一个噪声向量z输入到生成器网络可以得到合成图片然后对合成图片旋转某一角度,将旋转后的图片输入至学生模型的特征提取器Φ,从而将获得的特征表示输入至辅助分类器利用辅助分类器的输出结果计算损失函数从而量化学生模型当前的学习能力,也就是学生反馈的损失函数,具体
为:
[0014][0015]其中,k表示自监督增强任务的类别标签,自监督增强任务是将一个自监督旋转任务和原始的图像分类任务视为一个联合任务。
[0016]具体地,所述的自监督增强任务的类别的具体定义如下:
[0017]给定原始的图像分类任务的总类别数为N,自监督旋转任务的总类别数为M;假定合成图片在图像分类任务的中为n类,而其旋转版本在自监督旋转任务中为m类,那么其在自监督增强任务中的类别为n*M+m。
[0018]具体地,所述S2中教师反馈的损失函数具体为:
[0019][0020]其中,为教师模型的输出和预定义的图像分类任务的标签之间的交叉熵,其公式表示为:
[0021][0022]为合成图像和真实图像特征统计之间的l2范数距离,其公式表示为:
[0023][0024]其中,和分别为合成图像在教师模型第l层的特征图的均值和方差;μ
l
和为存储在教师模型第l层的特征图的均值和方差,即代表真实图像的特征统计信息。
[0025]具体地,所述S2中同时根据学生反馈和教师反馈的损失函数联合训练噪声向量和生成器,总体损失函数为:
[0026][0027]其中,α是超参数用于平衡两个损失项的权重。
[0028]具体地,所述S3中,通过知识蒸馏训练学生模型的总体损失函数为:
[0029][0030]其中,β是超参数用于平衡三个损失项的权重;是原始图像分类任务中的常规损失项,用于计算学生模型输出和预定义标签之间的交叉熵;
[0031]为教师和学生输出之间的KL散度,其公式表示为:
[0032][0033]其中,σ(
·
)是softmax函数,τ是平滑输出分布的超参数;
[0034]为教师模型最后一层的特征图和学生模型最后一层的特征图之间的均方误差,其公式表示为:
[0035][0036]其中,r(
·
)是一个映射操作,为了对齐特征图之间的维度。
[0037]具体地,所述S3中,独立训练辅助分类器具体包括:在学生完成每一次训练迭代之后,固定学生模型的参数,然后根据损失函数训练更新辅助分类器的参数。
[0038]由上述描述可知,与现有技术相比,本专利技术的优点在于:
[0039]在图片合成的过程中,使得学生模型也作为贡献者之一,根据学生反馈的当前能力,而适应性地调整合成图片的内容,产生对于学生当前能力更困难的样本,避免过于简单的样本致使学生模型一直学习不到新知识,更有效地训练学生从而提高最终表现。
[0040]本专利技术在无原始训练数据的情况下,根据学生模型的当前状态自适应地调整合成图片的内容,为学生模型量身定做合成图片,从而更加有效地训练学生模型以至提高最终表现。
附图说明
[0041]图1是本专利技术方法的流程图。
具体实施方式
[0042]下面结合附图对本专利技术方法进一步描述:
[0043]如图1所示,一种基于学生反馈的无数据知识蒸馏方法,包括以下步骤:
[0044]S1:初始化学生模型,并在学生模型的特征提取器后添加一个辅助分类器;
[0045]在具体实施中,辅助分类器由两层全连接层构成。
[0046]S2:利用辅助分类器反馈学生模型的当前学习能力,并同时根据学生反馈和教师反馈的损失函数联合训练噪声向量和生成器,从而获得最佳合成图片;
[0047]利用辅助分类器反馈学生模型的当前学习能力,具体过程包括:
[0048]随机生成一个噪声向量z输入到生成器网络可以得到合成图片然后对合成图片旋转某一角度,将旋转后的图片输入至学生模型的特征提取器Φ,从而将获得的特征表示输入至辅助分类器利用辅助分类器的输出结果计算损失函数从而量化学生模型当前的学习能力,也就是学生反馈的损失函数,具体为:
[0049][0050]其中,k表示自监督增强任务的类别标签,自监督增强任务是将一个自监督旋转任务和原始的图像分类任务视为一个联合任务。
[0051]根据学生模型的当前能力而自适应地合成图片是很有必要的,模型捕获语义信息的能力可以很好地作为学生模型能力的一个指标,而一个辅助任务可以从侧面反映学生模型理解语义信息的程度。若仅采用自监督旋转任务作为辅助任务可能会能力评估不准确,例如数字“6”对于数据“9”旋转的是180
°
,而对于数字“6”本身旋转的是0
°
...

【技术保护点】

【技术特征摘要】
1.一种基于学生反馈的无数据知识蒸馏方法,包括以下步骤:S1:初始化学生模型,并在学生模型的特征提取器后添加一个辅助分类器;S2:利用辅助分类器反馈学生模型的当前学习能力,并同时根据学生反馈和教师反馈的损失函数联合训练噪声向量和生成器,从而获得最佳合成图片;S3:利用在S2中获得的合成图片通过知识蒸馏训练学生模型,并同时独立训练辅助分类器学习辅助任务;S4:重复S2和S3,直至学生模型被训练至收敛。2.根据权利要求1所述的一种基于学生反馈的无数据知识蒸馏方法,其特征在于,所述S2中利用辅助分类器反馈学生模型的当前学习能力,具体过程包括:随机生成一个噪声向量z输入到生成器网络可以得到合成图片然后对合成图片旋转某一角度,将旋转后的图片输入至学生模型的特征提取器Φ,从而将获得的特征表示输入至辅助分类器利用辅助分类器的输出结果计算损失函数从而量化学生模型当前的学习能力,也就是学生反馈的损失函数,具体为:其中,k表示自监督增强任务的类别标签,自监督增强任务是将一个自监督旋转任务和原始的图像分类任务视为一个联合任务。3.根据权利要求2所述的一种基于学生反馈的无数据知识蒸馏方法,其特征在于,所述的自监督增强任务的类别的具体定义如下:给定原始的图像分类任务的总类别数为N,自监督旋转任务的总类别数为M;假定合成图片在图像分类任务中为n类,而其旋转版本在自监督旋转任务中为m类,那么其在自监督增强任务中的类别为n*M+m。4.根据权利要求3所述的一种基于学生反馈的无数据知识蒸馏方法,其特征在于,所述S2...

【专利技术属性】
技术研发人员:王灿罗诗雅陈德仿冯雁史麒豪
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1