基于双向知识蒸馏的联合学习模型训练方法、装置及系统制造方法及图纸

技术编号:39936205 阅读:20 留言:0更新日期:2024-01-08 22:12
本公开涉及联合学习技术领域,提供了基于双向知识蒸馏的联合学习模型训练方法、装置及系统。该方法包括:基于正向教师模型,对初始化模型进行正向蒸馏,得到正向学生模型;当接收到服务端反馈的正向全局学生模型时,对正向学生模型进行更新,得到更新正向学生模型;基于反向教师模型,对正向教师模型进行反向蒸馏,以得到反向学生模型;当接收到服务端反馈的反向全局学生模型时,对正向教师模型进行更新,得到更新正向教师模型;当正向、反向知识蒸馏的联合学习模型训练达到收敛条件时,得到目标联合学习模型。本公开可实现大模型和小模型之间的双向知识迁移传递,提高大模型的认知范围及提高小模型的模型精确度,从而实现互利共赢。

【技术实现步骤摘要】

本公开涉及联合学习,尤其涉及一种基于双向知识蒸馏的联合学习模型训练方法、装置及系统


技术介绍

1、深层神经网络的模型压缩和加速方法通常分为四个不同类别,即模型剪枝和量化,低秩分解,紧凑型卷积滤波器和知识蒸馏。

2、现有的知识蒸馏方法中,在学习过程中保持teacher模型(大模型)固定,仅对student模型(小模型)进行单向的知识迁移传递,而难以从student模型的学习中得到反馈信息来对teacher模型自身进行优化调整,从而无法进一步提高teacher模型的认知范围(包括模型的泛化能力和模型的知识面),同时也不利于提高student模型的模型精确度。


技术实现思路

1、有鉴于此,本公开实施例提供了一种基于双向知识蒸馏的联合学习模型训练方法、装置及系统,以解决现有的知识蒸馏方法仅能对小模型进行单向的知识迁移传递,而难以从student模型的学习中得到反馈信息来对teacher模型自身进行优化调整,从而无法进一步提高teacher模型的认知范围,同时也不利于提高student模型的模型精确度的问本文档来自技高网...

【技术保护点】

1.一种基于双向知识蒸馏的联合学习模型训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,基于所述正向教师模型,对初始化模型进行正向蒸馏,以得到正向学生模型,包括:

3.根据权利要求2所述的方法,其特征在于,根据所述正向教师模型参数、初始模型参数、第一测试结果以及预设的第一权重系数,计算得到正向蒸馏偏差值,包括:

4.根据权利要求1所述的方法,其特征在于,基于所述反向教师模型,对所述正向教师模型进行反向蒸馏,以得到反向学生模型,包括:

5.根据权利要求4所述的方法,其特征在于,根据所述反向教师模型参数、正向教师模型参数、...

【技术特征摘要】

1.一种基于双向知识蒸馏的联合学习模型训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,基于所述正向教师模型,对初始化模型进行正向蒸馏,以得到正向学生模型,包括:

3.根据权利要求2所述的方法,其特征在于,根据所述正向教师模型参数、初始模型参数、第一测试结果以及预设的第一权重系数,计算得到正向蒸馏偏差值,包括:

4.根据权利要求1所述的方法,其特征在于,基于所述反向教师模型,对所述正向教师模型进行反向蒸馏,以得到反向学生模型,包括:

5.根据权利要求4所述的方法,其特征在于,根据所述反向教师模型参数、正向教师模型参数、第二测试结果以及预设的第二权重系数,计算得到反向蒸馏偏差值,包括:

<...

【专利技术属性】
技术研发人员:张敏李振飞
申请(专利权)人:新奥新智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1