一种模型的处理方法、装置及设备制造方法及图纸

技术编号:37963781 阅读:19 留言:0更新日期:2023-06-30 09:39
本说明书实施例公开了一种模型的处理方法、装置及设备,该方法包括:将目标域的目标数据分别输入第一教师模型和第二教师模型中,得到第一教师模型对应的第一输出数据和第二教师模型对应的第二输出数据,第一教师模型是源域的模型,第二教师模型是目标域的模型;将目标数据输入到数据选择模型中,得到第一教师模型和第二教师模型的重要性权重,并基于上述重要性权重和两个输出数据,确定目标数据对应的教师输出结果;将目标数据输入到第一学生模型中,得到目标数据对应的第一学生输出结果;基于教师输出结果、第一学生输出结果和目标数据对应的标签信息,通过预设的损失函数,使用第一教师模型和第二教师模型对第一学生模型进行知识蒸馏训练。行知识蒸馏训练。行知识蒸馏训练。

【技术实现步骤摘要】
一种模型的处理方法、装置及设备


[0001]本文件涉及计算机
,尤其涉及一种模型的处理方法、装置及设备。

技术介绍

[0002]在迁移学习中,通常需要源域的数据或者源域的白盒模型,但是,随着人们对隐私数据越来越关注,隐私保护成为组织或个人必须要考虑的问题,因此,无法获取到原始的训练数据或者无法获取到源域的模型正变得越来越普遍。黑盒迁移学习,即通过源域的模型的输出数据进行迁移学习,成为隐私保护下的一个新的研究话题。
[0003]知识蒸馏是一种将大模型或多个集成模型所获得的知识迁移到一个相对较小的模型的机制,但由于只需要用到教师模型的输出数据,因此也可以用来解决黑盒迁移学习中的相关问题,而大多数基于知识蒸馏的处理都会假设源域与目标域是相似的,基于此,由于域差异导致的负迁移问题并没有被充分考虑。为此,需要提供一种更优的黑盒迁移学习机制,并可以缓解域差异导致的负迁移等问题。

技术实现思路

[0004]本说明书实施例的目的是提供一种更优的黑盒迁移学习机制,并可以缓解域差异导致的负迁移等问题。
[0005]为了实现上述本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型的处理方法,所述方法包括:将目标域的目标数据分别输入第一教师模型和第二教师模型中,得到所述第一教师模型对应的第一输出数据和所述第二教师模型对应的第二输出数据,所述第一教师模型是与知识蒸馏中的所述目标域对应的源域的模型,所述第二教师模型是所述目标域的模型;将所述目标数据输入到数据选择模型中,得到所述第一教师模型和所述第二教师模型的重要性权重,并基于所述第一教师模型和所述第二教师模型的重要性权重,以及所述第一输出数据和所述第一输出数据,确定所述目标数据对应的教师输出结果;将所述目标数据输入到第一学生模型中,得到所述目标数据对应的第一学生输出结果;基于所述教师输出结果、所述第一学生输出结果和所述目标数据对应的标签信息,通过预设的损失函数,使用所述第一教师模型和所述第二教师模型对所述第一学生模型进行知识蒸馏训练,得到蒸馏后的第一学生模型。2.根据权利要求1所述的方法,所述第一学生模型中包括第一全局特征提取器和第一局部特征提取器,所述第一全局特征提取器用于从所述目标数据中提取与所述源域和/或所述目标域相关的特征,所述第二局部特征提取器用于从所述目标数据中提取与所述目标域相关的特征,所述将所述目标数据输入到第一学生模型中,得到所述目标数据对应的第一学生输出结果,包括:将所述目标数据输入到第一全局特征提取器中,得到所述目标数据对应的第一全局特征,并将所述目标数据输入到第一局部特征提取器中,得到所述目标数据对应的第一局部特征;将所述第一全局特征和所述第一局部特征输入到所述第一学生模型的剩余模型结构中,得到所述目标数据对应的第一学生输出结果。3.根据权利要求2所述的方法,所述数据选择模型中包括第二全局特征提取器、第二局部特征提取器和注意力层,所述第二全局特征提取器用于从所述目标数据中提取与所述源域和/或所述目标域相关的特征,所述第二局部特征提取器用于从所述目标数据中提取与所述目标域相关的特征,所述将所述目标数据输入到数据选择模型中,得到所述第一教师模型和所述第二教师模型的重要性权重,包括:将所述目标数据输入到第二全局特征提取器中,得到所述目标数据对应的第二全局特征,并将所述目标数据输入到第二局部特征提取器中,得到所述目标数据对应的第二局部特征;基于所述第二全局特征、所述第二局部特征和所述注意力层,以及所述第一学生模型的剩余模型结构,确定所述第一教师模型和所述第二教师模型的重要性权重。4.根据权利要求3所述的方法,所述第一全局特征提取器与所述第二全局特征提取器是相互之间进行参数共享的全局特征提取器,所述第一局部特征提取器与所述第二局部特征提取器是相互之间进行参数共享的局部特征提取器。5.根据权利要求4所述的方法,所述方法还包括:将所述目标数据输入到所述第一教师模型对应的第二学生模型中,得到所述目标数据对应的第二学生输出结果;所述基于所述教师输出结果、所述第一学生输出结果和所述目标数据对应的标签信
息,通过预设的损失函数,使用所述第一教师模型和所述第二教师模型对所述第一学生模型进行知识蒸馏训练,得到蒸馏后的第一学生模型,包括:基于所述教师输出结果、所述第一学生输出结果、所述目标数据对应的标签信息和所述第二学生输出结果,通过预设的损失函数,使用所述第一教师模型和所述第二教师模型对所述第一学生模型进行知识蒸馏训练,得到蒸馏后的第一学生模型。6.根据权利要求5述的方法,所...

【专利技术属性】
技术研发人员:郭涵青王立陆毅成金宏王维强赵闻飙
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1