【技术实现步骤摘要】
一种知识蒸馏方法、装置及电子设备
[0001]本申请涉及人工智能(artificial intelligence,AI)
,尤其涉及一种知识蒸馏方法、装置及电子设备。
技术介绍
[0002]语言是人类智慧的关键体现,让机器理解自然语言是人工智能的重要目标。近年来,在算力和数据的飞速发展下,预训练技术成功提升了深度神经网络模型在各种自然语言任务上的性能。然而,随之而来的是模型规模的快速增长。如何将超大规模的模型部署在存储和算力有限的设备上,成为尚未完全解决的重要问题。
[0003]知识蒸馏是解决这一难题的流行技术。这一技术将超大规模模型视作教师模型,并将从教师模型中提取出的知识迁移到简单的学生模型,即迁移到小规模的神经网络模型中。在完成迁移后,小规模的学生模型则能被部署在存储和算力有限的设备上。
[0004]然而,知识蒸馏中的知识提取步骤通常需要大量对教师模型的使用。考虑到教师模型规模的快速增长,这一步骤的时间开销也在快速增加,由此导致知识蒸馏整体开销的增长。因此,如何减少知识蒸馏的开销是目前亟需解决的技 ...
【技术保护点】
【技术特征摘要】
1.一种知识蒸馏方法,其特征在于,所述方法包括:利用第一数据选择策略对j批数据中的每一批数据均进行筛选,j≥1,以及,在对所述j批数据中任意一批数据进行筛选后,均利用从所述j批数据中任意一批数据中筛选出的数据进行知识蒸馏;当利用从所述j批数据中的第j批数据内筛选出的数据进行知识蒸馏后,从多个数据选择策略中筛选出第二数据选择策略;利用所述第二数据选择策略对q批数据中的每一批数据均进行筛选,q≥1,以及,在对所述q批数据中任意一批数据进行筛选后,均利用从所述q批数据中任意一批数据中筛选出的数据进行知识蒸馏。2.根据权利要求1所述的方法,其特征在于,所述从多个数据选择策略中筛选出第二数据选择策略,具体包括:每间隔预设时长均从训练数据集中随机筛选M个样本,其中,所述训练数据集中包括所述j批数据和所述q批数据;每筛选出M个样本,均基于所述M个样本,确定目标学生模型的第一损失,以得到K个第一损失,所述目标学生模型为利用从所述j批数据中的第j批数据内筛选出的数据进行知识蒸馏得到的学生模型;根据所述K个第一损失,确定所述目标学生模型的第一损失下降速度;根据所述第一损失下降速度,确定所述目标学生模型的损失下降速度的目标增幅;根据所述目标增幅,对所述第一数据选择策略对应的目标值进行更新,其中,所述目标值用于表征选取所述第一数据选择策略作为数据选择策略的期望;根据所述多个数据选择策略中的每一个数据选择策略对应的目标值,从所述多个数据选择策略中选取出所述第二数据选择策略,其中,所述多个数据选择策略中包括所述第一数据选择策略。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标增幅,对所述第一数据选择策略对应的目标值进行更新,具体包括:确定所述第一数据选择策略对应的衰减系数;根据所述衰减系数和所述目标增幅,对所述第一数据选择策略对应的目标值进行更新。4.根据权利要求2或3所述的方法,其特征在于,所述根据所述多个数据选择策略中的每一个数据选择策略对应的目标值,从所述多个数据选择策略中选取出所述第二数据选择策略,具体包括:随机生成一个随机数;当所述随机数小于或等于预设值时,从所述多个数据选择策略中的每一个数据选择策略对应的目标值中,选用最大的一个目标值所对应的策略作为所述第二数据选择策略;当所述随机数大于所述预设值时,从所述多个数据选择策略中随机选取一个策略作为所述第二数据选择策略。5.根据权利要求1
‑
4任一所述的方法,其特征在于,所述方法还包括:当利用从所述q批数据中的第q批数据内筛选出的数据进行知识蒸馏后,从多个数据选择策略中筛选出第三数据选择策略;
利用所述第三数据选择策略对r批数据中的每一批数据均进行筛选,r≥1,以及,在对所述r批数据中任意一批数据进行筛选后,均利用从所述r批数据中任意一批数据中筛选出的数据进行知识蒸馏。6.一种知识蒸馏装置,其特征在于,所述装置包括:数据筛选模块,用于利用第一数据选择策略对j批数据中的每一批数据均进行筛选,j≥1;知识蒸馏模块,用于在对所述j批数据中任意一批数据进行筛选后,均利用从所述j批数据中任意一批数据中筛选出的数据进行知识蒸馏;策略选择模块,用于当所述知识蒸馏模块利用从所述j批数据中的第j批数据内筛选出的数据进行知识蒸馏后,从多个数据选择策略中筛选出第二数据选...
【专利技术属性】
技术研发人员:孙茂松,周沁泓,张檬,李鹏,刘洋,
申请(专利权)人:清华大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。