【技术实现步骤摘要】
一种模型训练方法、装置、电子设备和存储介质
[0001]本公开涉及人工智能
,尤其涉及深度学习
技术介绍
[0002]随着深度学习的快速发展,优秀的深度学习模型层出不穷,模型精度也快速提升。但是,先进的深度学习模型正在变得越来越复杂,网络深度越来越深,模型参数量也在变得越来越多,模型的规模也越来越大。而大规模模型不方便部署到服务中去,因此,模型压缩(也就是在保证性能的前提下减少模型的参数量)成为一个重要的问题,而知识蒸馏(Knowledge Distillation)就是解决模型压缩的一种方法。
技术实现思路
[0003]本公开提供了一种模型训练方法、装置、电子设备以及存储介质。
[0004]根据本公开的一方面,提供了一种模型训练方法,包括:
[0005]将多个第一样本数据分别输入至少两个第一模型,得到各个第一模型针对多个第一样本数据的第一预测值;至少两个第一模型中包括一个基准模型和至少一个非基准模型;
[0006]根据该基准模型的第一预测值的分布,调整该非基准模型的第 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,包括:将多个第一样本数据分别输入至少两个第一模型,得到各个所述第一模型针对所述多个第一样本数据的第一预测值;所述至少两个第一模型中包括一个基准模型和至少一个非基准模型;根据所述基准模型的所述第一预测值的分布,调整所述非基准模型的所述第一预测值;利用所述基准模型的所述第一预测值、以及所述非基准模型的第一预测值的调整值,得到所述至少两个第一模型针对所述多个第一样本数据的集成输出;利用所述多个第一样本数据和所述集成输出,对第二模型进行训练。2.根据权利要求1所述的方法,其中,所述根据所述基准模型的所述第一预测值的分布,调整所述非基准模型的所述第一预测值,包括:确定所述基准模型的所述第一预测值的第一累积分布函数;对所述非基准模型的所述第一预测值进行调整,使第一预测值的调整值的累积分布函数等于所述第一累积分布函数。3.根据权利要求1或2所述的方法,其中,所述利用所述基准模型的所述第一预测值、以及所述非基准模型的第一预测值的调整值,得到所述至少两个第一模型针对所述多个第一样本数据的集成输出,包括:针对所述多个第一样本数据中的每个第一样本数据,将所述基准模型对所述第一样本数据的第一预测值、以及所述非基准模型对所述第一样本数据的第一预测值的调整值进行加权平均,得到所述至少两个第一模型针对所述第一样本数据的第一预测值;将所述至少两个第一模型针对各个第一样本数据的第一预测值进行组合,得到所述至少两个第一模型针对所述多个第一样本数据的集成输出。4.根据权利要求3所述的方法,还包括:确定所述加权平均过程所采用的权重。5.根据权利要求4所述的方法,其中,所述确定所述加权平均过程所采用的权重,包括:将多个第二样本数据分别输入所述至少两个第一模型,得到各个所述第一模型针对所述多个第二样本数据的第二预测值;对所述非基准模型的所述第二预测值进行调整,使第二预测值的调整值的累积分布函数等于或趋近于所述基准模型的所述第二预测值的累积分布函数;针对所述多个第二样本数据中的每个第二样本数据,将所述基准模型对所述第二样本数据的第二预测值、以及所述非基准模型对所述第二样本数据的第二预测值的调整值进行加权平均,将所述加权平均的结果与所述第二样本数据的真实值进行比较,根据比较结果调整所述加权平均所采用的权重;直至所述针对加权平均的结果与所述真实值的差值满足预定要求的情况下,结束对所述权重的调整,确定所述加权平均过程所采用的权重。6.根据权利要求1
‑
5中任一所述的方法,其中,所述第一样本数据包括搜索请求和搜索结果;所述第一预测值包括:对所述搜索请求和所述搜索结果之间的关联程度的预测值。7.根据权利要求1
‑
6中任一所述的方法,其中,所述利用所述多个第一样本数据和所述集成输出,对第二模型进行训练,包括:
将所述多个第一样本数据输入所述第二模型,得到所述第二模型对所述多个第一样本数据的预测值的第一概率分布;确定第一概率分布与所述集成输出的概率分布的KL散度;在所述KL散度不满足预设条件的情况下,调整所述第二模型的参数,返回执行所述将所述多个第一样本数据输入所述第二模型的步骤;直至所述KL散度满足预设要求的情况下,结束对所述第二模型的参数的调整,得到训练完成的第二模型。8.根据权利要求1
‑
7中任一所述的方法,其中,所述第一模型包括知识蒸馏系统中的教师模型,不同的第一模型解决不不同的业务问题;所述第二模型包括知识蒸馏系统中的学生模型。9.根据权利要求1
‑
8中任一所述的方法,其中,所述第一样本数据包括查询词和查询结果;所述将多个第一样本数据分别输入至少两个第一模型,得到各个所述第一模型针对所述多个第一样本数据的第一预测值,包括:将多个第一样本数据分别输入至少两个第一模型,得到各个所述第一模型针对各个所述第一样本数据中的查询词和查询结果的关联程度的预测值。10.根据权利要求9所述的方法,其中,所述利用所述基准模型的所述第一预测值、以及所述非基准模型的第一预测值的调整值,得到所述至少两个第一模型针对所述多个第一样本数据的集成输出,包括:针对各个第一样本数据,将所述基准模型针对所述第一样本数据中的查询词和查询结果的关联程度的预测值、以及所述非基准模型针对所述第一样本数据中的查询词和查询结果的关联程度的预测值的调整值进行加权平均,得到所述至少两个第一模型针对所述第一样本数据中的查询词和文件的关联程度的预测值的综合值。11.一种搜索方法,包括:响应于搜索请求,将所述搜索请求中的查询词输入预先训练的第二模型,得到所述第二模型输出的查询结果;其中,所述第二模型通过权利要求1
‑
10中任一所述的模型训练方法训练得到;所述查询结果包括:所述第二模型预测的、与所述查询词的关联程度大于或等于预设阈值的查询结果。12.一种模型训练装置,包括:输入模块,用于将多个第一样本数据分别输入至少两个第一模型,得到各个所述第一模型针对所述多个...
【专利技术属性】
技术研发人员:刘炜新,陈徐屹,刘佳祥,冯仕堃,黄世维,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。