【技术实现步骤摘要】
模型蒸馏方法、装置、电子设备及存储介质
[0001]本申请涉及人工智能
,更具体地,涉及一种模型蒸馏方法
、
装置
、
电子设备以及存储介质
。
技术介绍
[0002]模型蒸馏
(Model Distillation)
是一种将一个复杂的神经网络压缩成一个小而快速的网络的技术
。
通过将大网络中的知识“蒸馏”到小网络中,可以在保持高精度的同时减少计算资源和时间
。
目前的模型蒸馏方法包括知识蒸馏方法
、
自适应温度缩放方法
、
分布匹配方法以及多任务学习方法等类型,其中,知识蒸馏方法是一种基于教师网络与学生网络之间的知识转移的方法,在这种方法中,大网络被称为“教师”,小网络被称为“学生”,教师通过其高精度的输出来指导学生的学习
。
然而,目前的知识蒸馏方法所得到的模型的效果仍有待提升
。
技术实现思路
[0003]本申请提出了一种模型蒸馏方法
、
装置
、
电子设备以及存储介质,以改善上述问题
。
[0004]第一方面,本申请实施例提供了一种模型蒸馏方法,可以应用于电子设备,所述方法包括:获取样本图像;获取教师模型基于所述样本图像输出得到的第一图像表示和第一文本表示,所述教师模型包括单流模型以及双流模型,所述第一图像表示和所述第一文本表示均为所述单流模型以及双流模型各自的输出结果进行融合后的结果;获取学生模 ...
【技术保护点】
【技术特征摘要】
1.
一种模型蒸馏方法,其特征在于,所述方法包括:获取样本图像;获取教师模型基于所述样本图像输出得到的第一图像表示和第一文本表示,所述教师模型包括单流模型以及双流模型,所述第一图像表示和所述第一文本表示均为所述单流模型以及双流模型各自的输出结果进行融合后的结果;获取学生模型基于所述样本图像输出的第二图像表示和第二文本表示,所述学生模型为双流模型;基于所述第一图像表示和第一文本表示
、
所述第二图像表示和第二文本表示确定蒸馏损失函数;基于所述蒸馏损失函数更新所述学生模型的参数,并将所述损失函数收敛时的学生模型作为目标学生模型
。2.
根据权利要求1所述的方法,其特征在于,所述基于所述第一图像表示和第一文本表示
、
所述第二图像表示和第二文本表示确定蒸馏损失函数,包括:基于第二图像表示和第二文本表示获取第一
KL
散度;基于第一图像表示和第一文本表示获取第二
KL
散度;基于第一文本表示和第二图像表示获取第三
KL
散度;基于第二文本表示和第一图像表示获取第四
KL
散度;基于所述第一
KL
散度和所述第二
KL
散度获取目标分布蒸馏参数;基于所述第三
KL
散度和所述第四
KL
散度获取目标特征蒸馏参数;将所述目标分布蒸馏参数与所述目标特征蒸馏参数之和作为所述蒸馏损失函数
。3.
根据权利要求2所述的方法,其特征在于,所述基于第二图像表示和第二文本表示获取第一
KL
散度,包括:基于所述第二图像表示和第二文本表示获取由所述学生模型计算的图文相似度的第一分布矩阵,以及基于所述第二图像表示和第二文本表示获取由所述学生模型计算的文图相似度的第二分布矩阵,所述图文相似度表征图到文的相似度,所述文图相似度表征文到图的相似度;基于所述第一分布矩阵以及所述第二分布矩阵获取所述第一
KL
散度
。4.
根据权利要求2所述的方法,其特征在于,所述基于第一图像表示和第一文本表示获取第二
KL
散度,包括:基于第一图像表示和第一文本表示获取由所述教师模型计算的图文相似度的第三分布矩阵,以及基于第一图像表示和第一文本表示获取由所述教师模型计算的文图相似度的第四分布矩阵,所述图文相似度表征图到文的相似度,所述文图相似度表征文到图的相似度;基于所述第三分布矩阵以及所述第四分布矩阵获取所述第二
KL
散度
。5.
根据权利要求2所述的方法,其特征在于,所述基于第一文本表示和第二图像表示获取第三
KL
散度,包括:对所述第二图像表示进行对齐到所述第一文本表示的对齐操作,并获取对齐后表征图文相似度...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。