【技术实现步骤摘要】
用于知识蒸馏的网络训练方法、装置、介质与电子设备
本公开涉及人工智能
,尤其涉及一种用于知识蒸馏的网络训练方法、用于知识蒸馏的网络训练装置、计算机可读存储介质与电子设备。
技术介绍
深度学习作为人工智能领域的一个重要分支,近年来得到了快速的发展,出现了很多改进的深度学习方法,其中就包括知识蒸馏(KnowledgeDistillation)。知识蒸馏是模型压缩技术的一种具体实现方法,引入教师网络和学生网络,教师网络是相对复杂的网络模型,学生网络是相对精简的网络模型,利用样本数据训练教师网络,再以教师网络的输出训练学生网络,从而在学生网络上实现教师网络的处理功能,达到网络模型的精简等目的。然而,在现有的知识蒸馏方法中,学生网络的训练极大地依赖于教师网络的质量,且由于网络设计、参数初值等因素的影响,学生网络可能无法很好的适应教师网络,这些问题都不利于学生网络训练的进行,导致无法得到高质量的网络模型。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员 ...
【技术保护点】
1.一种用于知识蒸馏的网络训练方法,其特征在于,包括:/n将样本数据输入教师网络,获得所述样本数据对应的软标签数据,将所述样本数据输入学生网络,获得所述样本数据对应的预测数据;/n基于所述预测数据、所述软标签数据和所述样本数据对应的硬标签数据,构建损失函数;/n根据所述损失函数更新所述教师网络中的参数和所述学生网络中的参数。/n
【技术特征摘要】
1.一种用于知识蒸馏的网络训练方法,其特征在于,包括:
将样本数据输入教师网络,获得所述样本数据对应的软标签数据,将所述样本数据输入学生网络,获得所述样本数据对应的预测数据;
基于所述预测数据、所述软标签数据和所述样本数据对应的硬标签数据,构建损失函数;
根据所述损失函数更新所述教师网络中的参数和所述学生网络中的参数。
2.根据权利要求1所述的方法,其特征在于,所述软标签数据包括通过所述教师网络对所述样本数据进行分类得到的第一概率数据,所述预测数据包括通过所述学生网络对所述样本数据进行分类得到的第二概率数据。
3.根据权利要求1所述的方法,其特征在于,所述基于所述预测数据、所述软标签数据和所述样本数据对应的硬标签数据,构建损失函数,包括:
根据所述预测数据和所述硬标签数据,构建第一子损失;
根据所述预测数据和所述软标签数据,构建第二子损失;
根据所述第一子损失和所述第二子损失,确定所述损失函数。
4.根据权利要求3所述的方法,其特征在于,所述样本数据包括正样本;所述根据所述预测数据和所述软标签数据,构建第二子损失,包括:
根据所述正样本对应的预测数据和所述正样本对应的软标签数据,构建所述第二子损失。
5.根据权利要求4所述的方法,其特征在于,所述根据所述损失函数更新所述教师网络中的参数和所述学生网络中的参数,包括:
根据所述损失函数和所述正样本对应的预测数据,更新所述学生网络中的参数;
根据所述损失函数和所述正样本对应的软标签数据,更新所述教师网络中的参数。
6.根据权利要求5所述的方法,其特征在于,所述正样本对应的预测数据包括对所述正样本的学生预测值和所述学生预测值对应的概率;所述根据所述损失函数和所述正样本对应的预测数据,更新所述学生网络中的参数,包括:
根据所述损失函数对所述学生预测值的梯度,更新所述学生网络中的参数,使所述学生预测值对应的概率趋近于1。
7.根据权利要求6所述的方法...
【专利技术属性】
技术研发人员:田野,
申请(专利权)人:北京迈格威科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。