【技术实现步骤摘要】
知识蒸馏和图像处理方法、装置、电子设备和存储介质
[0001]本申请涉及计算机技术,具体涉及知识蒸馏和图像处理方法、装置、电子设备和存储介质。
技术介绍
[0002]目前,神经网络模型得到了迅速的发展。例如,在图像处理任务中,可以利用诸如RCNN(Region Convolutional Neural Networks,区域卷积神经网络),FAST
‑
RCNN(Fast Region Convolutional Neural Networks,快速区域卷积神经网络)等深度卷积神经网络模型,实现诸如图像分类、物体检测、语义分割等操作。
[0003]然而,随着任务越来越复杂,对处理结果的要求越来越高,神经网络模型的结构会变的越来越复杂,占用空间也越来越大。这将可能占用很大计算资源和存储空间,甚至导致神经网络模型无法利用在类似手机这样的设备中。
[0004]由此,需要一种模型压缩方法,可以使结构简单的学生模型向结构复杂的教师模型进行学习,让学生模型的结果尽可能接近教师模型,从而完成模型压缩。
技术实现思路
[0005]有鉴于此,本申请至少公开一种知识蒸馏方法,上述方法包括:
[0006]分别利用学生模型与教师模型,对图像数据集进行图像处理,得到第一输出特征与第二输出特征;
[0007]基于上述第一输出特征与上述第二输出特征,确定上述第一输出特征包括的各通道的特征图与上述第二输出特征包括的各通道的特征图之间匹配的特征图对所处的通道数之间的对应关系;
[
【技术保护点】
【技术特征摘要】
1.一种知识蒸馏方法,其特征在于,所述方法包括:分别利用学生模型与教师模型,对图像数据集进行图像处理,得到第一输出特征与第二输出特征;基于所述第一输出特征与所述第二输出特征,确定所述第一输出特征包括的各通道的特征图与所述第二输出特征包括的各通道的特征图之间匹配的特征图对所处的通道数之间的对应关系;对所述学生模型进行训练;其中,在每一轮训练中,分别利用所述学生模型与所述教师模型,对输入的样本图像进行图像处理,得到第三输出特征与第四输出特征;确定所述第三输出特征与所述样本图像对应的真实特征之间的误差;利用确定的所述对应关系进行特征对齐操作以使所述第三输出特征包括的各通道的特征图与所述第四输出特征包括的各通道的特征图中,处于相同通道数的特征图之间匹配;进一步确定特征对齐后的所述第三输出特征与所述第四输出特征之间的差距;基于所述误差与所述差距更新所述学生模型的模型参数。2.根据权利要求1所述的方法,其特征在于,所述分别利用学生模型与教师模型,对图像数据集进行图像处理,得到第一输出特征与第二输出特征,包括:利用学生模型,对所述图像数据集中的样本图像进行图像处理,得到与所述样本图像分别对应的输出特征;将与所述样本图像分别对应的输出特征中处于相同位置的像素值进行加权求和,得到所述第一输出特征;利用教师模型,对所述样本图像进行图像处理,得到与所述样本图像分别对应的输出特征;将与所述样本图像分别对应的输出特征中处于相同位置的像素值进行加权求和,得到所述第二输出特征。3.根据权利要求1或2所述的方法,其特征在于,所述基于所述第一输出特征与所述第二输出特征,确定所述第一输出特征包括的各通道的特征图与所述第二输出特征包括的各通道的特征图之间匹配的特征图对所处的通道数的对应关系,包括:利用二分图匹配算法或贪心匹配算法,确定所述对应关系。4.根据权利要求3所述的方法,其特征在于,利用贪心匹配算法,确定所述对应关系,包括:依次将所述第一输出特征包括的各通道的特征图分别作为当前特征图,并执行:确定所述第二输出特征包括的各通道的特征图中,与所述当前特征图匹配的特征图;记录所述当前特征图所处的通道数与所述匹配的特征图所处的通道数之间的子对应关系;当针对所述第一输出特征的各通道的特征图完成所述匹配后,基于记录的所述子对应关系,确定所述对应关系。5.根据权利要求3所述的方法,其特征在于,利用二分图匹配算法,确定所述对应关系,包括:依次将所述第一输出特征包括的各通道的特征图分别作为当前特征图,并执行:根据已维护的对应关系,删除所述第二输出特征包括的各通道的特征图中,已经确定的与所述第一输出特征包括的特征图匹配的特征图;确定所述第二输出特征中剩余的各通道的特征
图中,与所述当前特征图匹配的特征图;记录所述当前特征图所处的通道数与所述匹配的特征图所处的通道数之间的子对应关系;当针对所述第一输出特征的各通道的特征图完成所述匹配后,基于记录的所述子对应关系,确定所述对应关系。6.根据权利要求1
‑
5任一所述的方法,其特征在于,所述方法还包括:在分别利用学生模型与教师模型,对图像数据集进行图像处理,得到第一输出特征与第二输出特征之前,通过训练样本集对所述学生模型与所述教师模型进行预训练;所述方法还包括:在对所述学生模型进行所述预训练之前,记录所述学生模型对应的初始化参数;所述对所述学生模型进行训练,包括:利用记录的所述初始化参数,对所述学生模型进行初始化操作;对初始化后的所述学生模型进行训练。7.根据权利要求1
‑
6任一所述的方法,其特征在于,所述方法还包括:基于确定的所述对应关系,生成转换矩阵;其中,所述转换矩阵用于表征所述第二输出特征包括的各通道的特征图中,与所述第一输出特征包括的各通道的特征图对应的特征图所处的通道数,或者,所述第一输出特征包括的各通道的特征图中,与所述第二输出特征包括的各通道的特征图对应的特征图所处的通道数。8.根据权利要求7所述的方法,其特征在于,所述利用确定的所述对应关系进行特征对齐操作以使所述第三输出特征包括的各通道的特征图与所述第四输出特征包括的各通道的特征图中,处于相同通道...
【专利技术属性】
技术研发人员:高梦雅,王宇杰,李全全,
申请(专利权)人:北京市商汤科技开发有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。