【技术实现步骤摘要】
知识蒸馏方法及装置、存储介质、终端
本专利技术涉及人工智能
,尤其涉及一种知识蒸馏方法及装置、存储介质、终端。
技术介绍
近年来,深度神经网络(DeepNeuralNetworks,DNN)在工业界和学术界都取得了成功,尤其是在处理计算机视觉(ComputerVision)任务方面得到了广泛的应用。深度神经网络的巨大成功主要归因于其具有可扩展性,可以通过编码大规模数据以操纵大量的模型参数,其中,模型参数的数量通常达数十亿个。由于深度神经网络越来越复杂,计算的复杂程度不断增高,存储需求庞大,因此,如何将深度神经网络部署在资源有限的边缘设备(例如,移动终端和嵌入式设备等)上是当前面临的主要挑战。为了推进深度神经网络在边缘设备上的应用,通常对深度神经网络进行简化以减少其对计算能力和内存的需求,这一过程被称之为“模型压缩(ModelCompression)”。知识蒸馏(KnowledgeDistillation)是模型压缩的方式之一。知识蒸馏的目的在于将复杂的教师网络(TeacherNetwork)的暗知识(DarkK ...
【技术保护点】
1.一种知识蒸馏方法,其特征在于,所述方法包括:/n获取样本图像,将所述样本图像分别输入至教师网络和学生网络,所述教师网络包括第一特征提取模块和第一分类器,所述第一特征提取模块包括一个或多个级联的第一特征单元,所述学生网络包括第二特征提取模块和第二分类器,所述第二特征提取模块包括一个或多个级联的第二特征单元,其中,所述第一特征单元与第二特征单元一一对应,所述样本图像具有已标注的标签;/n将每一第二特征单元计算得到的特征向量聚合至与该第二特征单元对应的第一特征单元计算得到的特征向量;/n采用所述第一分类器根据所述第一特征提取模块输出的特征向量计算第一预测结果,并采用所述第二分 ...
【技术特征摘要】
1.一种知识蒸馏方法,其特征在于,所述方法包括:
获取样本图像,将所述样本图像分别输入至教师网络和学生网络,所述教师网络包括第一特征提取模块和第一分类器,所述第一特征提取模块包括一个或多个级联的第一特征单元,所述学生网络包括第二特征提取模块和第二分类器,所述第二特征提取模块包括一个或多个级联的第二特征单元,其中,所述第一特征单元与第二特征单元一一对应,所述样本图像具有已标注的标签;
将每一第二特征单元计算得到的特征向量聚合至与该第二特征单元对应的第一特征单元计算得到的特征向量;
采用所述第一分类器根据所述第一特征提取模块输出的特征向量计算第一预测结果,并采用所述第二分类器根据所述第二特征提取模块输出的特征向量计算第二预测结果;
根据所述第一预测结果、第二预测结果和所述标签计算蒸馏损失;
根据所述蒸馏损失更新所述学生网络。
2.根据权利要求1所述的知识蒸馏方法,其特征在于,根据所述第一预测结果、第二预测结果和所述标签计算蒸馏损失包括:
根据所述第一预测结果和所述标签计算教师网络的损失;
根据所述第二预测结果和所述标签计算学生网络的损失;
将所述教师网络的损失与所述学生网络的损失之和作为所述蒸馏损失。
3.根据权利要求2所述的知识蒸馏方法,其特征在于,所述方法还包括:
根据所述教师网络的损失更新所述教师网络。
4.根据权利要求1所述的知识蒸馏方法,其特征在于,多个级联的第一特征单元中最后一个第一特征单元与所述第一分类器连接,将未与所述第一分类器连接的第一特征单元记为第一中间特征单元,所述教师网络还包括至少一个第一辅助分类器,每一第一辅助分类器对应一个或多个级联的第一中间特征单元,所述方法还包括:
采用所述第一辅助分类器根据与其对应的第一中间特征单元中最后一个第一中间特征单元输出的特征向量计算第一中间预测结果;
根据所述第一中间预测结果和所述标签计算第一中间损失;
根据所述第一中间损失更新与所述第一辅助分类器对应的第一中间特征单元。
5.根据权利要求1所述的知识蒸馏方法,其特征在于,多个级联的第二特征单元中最后一个第二特征单元与所述第二分类器连接,将未与所述第二分类器连接的第二特征单元记为第二中间特征单元,所述学生网络还包括至少一个第二辅助分类器,每一第二辅助分类器对应一个或多个级联的第二中间特征单元,所述方法还包括:
采用所述第二辅助分类器根据与其对应的第二中间特征单元中最后一个第二中间特征单元输出的特征向量计算第二中...
【专利技术属性】
技术研发人员:朱政,李路军,黄冠,
申请(专利权)人:上海芯翌智能科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。