模型蒸馏方法、装置、设备和介质制造方法及图纸

技术编号:42465961 阅读:17 留言:0更新日期:2024-08-21 12:52
本申请提供了一种模型蒸馏方法、装置、设备和介质,方法包括:利用教师模型和学生模型分别处理同一输入数据,得到教师模型输出的第一输出结果和第一输出结果置信度,以及学生模型输出的第二输出结果置信度;根据第一输出结果置信度和第二输出结果置信度,确定第一输出结果是否为蒸馏数据;如果第一输出结果为蒸馏数据,则将第一输出结果和输入数据添加至蒸馏数据集,利用蒸馏数据集对学生模型进行模型蒸馏,得到目标学习模型。本申请实现自动获取模型蒸馏所需的蒸馏数据,以帮助建立蒸馏数据集,从而实现基于建立的蒸馏数据集来帮助学生模型进行模型蒸馏,从而提高学生模型的预测精度及泛化能力,节省蒸馏数据获取所需的大量人力物力。

【技术实现步骤摘要】

本申请实施例涉及人工智能,尤其涉及一种模型蒸馏方法、装置、设备和介质


技术介绍

1、随着深度学习技术的发展,小模型(又称为学生模型)得到越来越多研究者的重视。相较于大模型(又称为教师模型),学生模型由于参数量小,推理速度快的特点,在终端设备上具有广泛应用。但学生模型也存在着不能从数据中学习到足够多的特征,导致预测精度往往比教师模型精度低,泛化能力差的缺点。因此,如何将复杂、学习能量强的教师模型学习到的特征(又称为知识)迁移到学生模型上,使得学生模型得到不输于教师模型的性能成为目前的一个难题。

2、相关技术中,可采用模型蒸馏(又称为知识蒸馏)的方式,通过利用教师模型学习到的知识作为标签来监督学生模型的训练过程,从而将教师模型学习到的知识转移到学生模型中,在确保学生模型具备参数量小,推理速度快的特点基础上,使得学生模型的能够获得接近于教师模型性能。

3、然而,模型蒸馏如同普通模型训练一样,也需要使用足够多的训练数据(蒸馏数据)来帮助学生模型学习教师模型。但在模型开发过程中,开发人员往往无法直接获取到足够多的蒸馏数据对学生模型进行模型蒸本文档来自技高网...

【技术保护点】

1.一种模型蒸馏方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述第一输出结果置信度和所述第二输出结果置信度,确定所述第一输出结果是否为蒸馏数据,包括:

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述根据获取到的反馈信息,确定所述第一输出结果准确,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述数据标签,确定所述第一输出结果准确,包括:

6.根据权利要求3所述的方法,其特征在于,所述根据所述第一输出结果和所述第二输出结果,输出...

【技术特征摘要】

1.一种模型蒸馏方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述第一输出结果置信度和所述第二输出结果置信度,确定所述第一输出结果是否为蒸馏数据,包括:

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述根据获取到的反馈信息,确定所述第一输出结果准确,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述数据标签,确定所述第一输出结果准确,包括:

6.根据权利...

【专利技术属性】
技术研发人员:林泽一范振张阳
申请(专利权)人:北京字跳网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1