【技术实现步骤摘要】
本公开涉及联合学习,尤其涉及一种基于双向知识蒸馏的联合学习模型训练方法、装置及系统。
技术介绍
1、深层神经网络的模型压缩和加速方法通常分为四个不同类别,即模型剪枝和量化,低秩分解,紧凑型卷积滤波器和知识蒸馏。
2、现有的知识蒸馏方法中,在学习过程中保持teacher模型(大模型)固定,仅对student模型(小模型)进行单向的知识迁移传递,而难以从student模型的学习中得到反馈信息来对teacher模型自身进行优化调整,从而无法进一步提高teacher模型的认知范围(包括模型的泛化能力和模型的知识面),同时也不利于提高student模型的模型精确度。
技术实现思路
1、有鉴于此,本公开实施例提供了一种基于双向知识蒸馏的联合学习模型训练方法、装置及系统,以解决现有的知识蒸馏方法仅能对小模型进行单向的知识迁移传递,而难以从student模型的学习中得到反馈信息来对teacher模型自身进行优化调整,从而无法进一步提高teacher模型的认知范围,同时也不利于提高student
...【技术保护点】
1.一种基于双向知识蒸馏的联合学习模型训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,基于所述正向教师模型,对初始化模型进行正向蒸馏,以得到正向学生模型,包括:
3.根据权利要求2所述的方法,其特征在于,根据所述正向教师模型参数、初始模型参数、第一测试结果以及预设的第一权重系数,计算得到正向蒸馏偏差值,包括:
4.根据权利要求1所述的方法,其特征在于,基于所述反向教师模型,对所述正向教师模型进行反向蒸馏,以得到反向学生模型,包括:
5.根据权利要求4所述的方法,其特征在于,根据所述反向教师模型参数
...【技术特征摘要】
1.一种基于双向知识蒸馏的联合学习模型训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,基于所述正向教师模型,对初始化模型进行正向蒸馏,以得到正向学生模型,包括:
3.根据权利要求2所述的方法,其特征在于,根据所述正向教师模型参数、初始模型参数、第一测试结果以及预设的第一权重系数,计算得到正向蒸馏偏差值,包括:
4.根据权利要求1所述的方法,其特征在于,基于所述反向教师模型,对所述正向教师模型进行反向蒸馏,以得到反向学生模型,包括:
5.根据权利要求4所述的方法,其特征在于,根据所述反向教师模型参数、正向教师模型参数、第二测试结果以及预设的第二权重系数,计算得到反向蒸馏偏差值,包括:
<...【专利技术属性】
技术研发人员:张敏,李振飞,
申请(专利权)人:新奥新智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。