一种基于解耦蒸馏损失的自蒸馏实现方法技术

技术编号：35188301 阅读：19 留言：0更新日期：2022-10-12 18:02

本发明专利技术公开了一种基于解耦蒸馏损失的自蒸馏实现方法，该方法包括：首先下载CIFAR数据集，并对其进行划分和增广；然后在残差网络网络结构的基础上，使用四个阶段特征分别作为学生网络和教师网络，构造出新的蒸馏框架；将划分后的数据集送入神经网络进行训练，直至网络收敛，获得权重文件；最后利用训练好的神经网络和权重文件来检测测试图像，并输出分类结果。本发明专利技术很好地解决了目前蒸馏框架中教师网络预训练耗时和小模型精度不达标的问题，提高了蒸馏下模型的准确率。了蒸馏下模型的准确率。了蒸馏下模型的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于解耦蒸馏损失的自蒸馏实现方法

[0001]本专利技术涉及一种基于解耦蒸馏损失的自蒸馏实现方法，属于计算机视觉

技术介绍

[0002]近深度学习取得了巨大进步，但是受限于庞大的计算量和参数量很难实际应用与资源受限设备上。为了使深度模型更加高效，人们探索知识蒸馏这个领域。2006年,Bucilua等人最先提出将大模型的知识迁移到小模型的想法。2015年，Hinton才正式提出广为人知的知识蒸馏的概念。知识蒸馏的主要的想法是：学生模型通过模仿教师模型来获得和教师模型相当的精度，关键问题是如何将教师模型的知识迁移到学生模型。
[0003]传统知识蒸馏可以分为基于响应的知识蒸馏和基于特征的知识蒸馏。基于反应的知识通常指教师模型最后一个输出层的神经反应。其主要思想是直接模拟教师模型的最终预测。基于反应的知识蒸馏是一种简单而有效的模型压缩方法，在不同的任务和应用中得到了广泛的应用。
[0004]基于特征的知识蒸馏来自于中间层，是基于响应的知识的一个很好的扩展，利用中间层的特征图可以作为监督学生模型训练的知识。最直接的想法是匹配中间特征的激活函数值，特别地，Zagoruyko和Komodakis(2017)提出用attention map来表示知识；为了匹配教师和学生之间的语义信息，Chen et al.(2021)提出cross
‑
layer KD，通过注意力定位自适应地为每个学生网络中的层分配教师网络中的层。但是，上述两种经典方法有两个缺点包括：第一个缺点是知识转移效率低，这意...

【技术保护点】

【技术特征摘要】
1.一种基于解耦蒸馏损失的自蒸馏实现方法，其特征在于，所述方法包括以下步骤：步骤1：数据集获取过程；首先下载CIFAR数据集，并对其进行划分为训练集和测试集以及数据增广；步骤2：构建神经网络过程；在残差网络网络结构的基础上，使用四个阶段特征分别作为学生网络和教师网络，构造出新的蒸馏框架；步骤3：神经网络训练过程；将增广划分后的CIFAR数据集送入步骤2构建的神经网络进行训练，直至网络收敛；步骤4：测试图像检测过程；利用训练好的神经网络和权重文件来检测测试图像中的分类准确率。2.根据权利要求1所述的一种基于解耦蒸馏损失的自蒸馏实现方法，其特征在于，所述步骤2包括以下步骤：步骤2
‑
1：在残差网络网络中对于不同浅层网络的预测结果，将其当作学生网络，在每个浅层block之后，设置仅用于训练和可在推理中去除的瓶颈层和全连接层；步骤2
‑
2：对原本的基于响应的知识蒸馏损失进行分解，拆解成目标类别和非目标类别的二分类损失以及非目标类别概率分布，并将二分类损失和非目标类别概率分布的权重解耦出来。3.根据权利要求1所述的一种基于解耦蒸馏损失的自蒸馏实现方法，其特征在于，所述步骤3包括以下步骤：步骤3
‑

【专利技术属性】
技术研发人员：刘宁钟，朱隆熙，吴磊，王淑君，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人