基于模型蒸馏的联合学习训练方法及装置制造方法及图纸

技术编号:39960359 阅读:16 留言:0更新日期:2024-01-08 23:59
本公开涉及联合学习技术领域,提供了一种基于模型蒸馏的联合学习训练方法及装置。该方法包括:获取联合学习训练对应的教师模型,并将教师模型下发给每个参与方;根据教师模型,利用每个参与方的参与方数据训练每个参与方的学生模型;在每个参与方对学生模型进行模型蒸馏处理,其中,模型蒸馏处理为将教师模型的知识迁移到学生模型;获取每个参与方经过模型蒸馏处理后的学生模型的第一模型参数,并聚合多个第一模型参数,得到第一聚合参数;基于第一聚合参数确定联合学习训练对应的聚合模型。采用上述技术手段,解决现有技术中,在联合学习训练中存在训练的模型规模大、通信成本高和模型应用成本高等问题。

【技术实现步骤摘要】

本公开涉及联合学习,尤其涉及一种基于模型蒸馏的联合学习训练方法及装置


技术介绍

1、在联合学习中,目前是分别通过多个参与方的训练数据集训练神经网络模型,得到每个参与方的网络模型,根据每个参与方的网络模型,得到联合学习模型。这种训练方法,存在如下问题:每个参与方训练的模型规模大,深度学习模型规模较大(几百兆~几百g),网络复杂度高,联合训练需要的时长、计算、存储成本很高;通信成本高,大模型联合训练,需要长时间传递大数据量,跨区域、大规模的网络通讯成本高、时延高且不稳定,不利于模型训练。增加成本和不可控的风险;模型应用成本高,深度学习因其计算复杂度或参数冗余,在一些场景和设备上限制了相应的模型部署,响应速度慢,无法应对大流量访问。

2、在实现本公开构思的过程中,专利技术人发现相关技术中至少存在如下技术问题:在联合学习训练中存在训练的模型规模大、通信成本高和模型应用成本高等问题。


技术实现思路

1、有鉴于此,本公开实施例提供了一种基于模型蒸馏的联合学习训练方法、装置、电子设备及计算机可读存储介质,以解本文档来自技高网...

【技术保护点】

1.一种基于模型蒸馏的联合学习训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述在每个参与方对所述学生模型进行模型蒸馏处理,其中,所述模型蒸馏处理为将所述教师模型的知识迁移到所述学生模型,包括:

3.根据权利要求2所述的方法,其特征在于,包括:

4.根据权利要求1所述的方法,其特征在于,所述在每个参与方对所述学生模型进行模型蒸馏处理,其中,所述模型蒸馏处理为将所述教师模型的知识迁移到所述学生模型之后,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,包括:

6.根据权利要求1所述的方法,其特征...

【技术特征摘要】

1.一种基于模型蒸馏的联合学习训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述在每个参与方对所述学生模型进行模型蒸馏处理,其中,所述模型蒸馏处理为将所述教师模型的知识迁移到所述学生模型,包括:

3.根据权利要求2所述的方法,其特征在于,包括:

4.根据权利要求1所述的方法,其特征在于,所述在每个参与方对所述学生模型进行模型蒸馏处理,其中,所述模型蒸馏处理为将所述教师模型的知识迁移到所述学生模型之后,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,包括:

6.根据权利要求1所述的方法,其...

【专利技术属性】
技术研发人员:张敏
申请(专利权)人:新奥新智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1