【技术实现步骤摘要】
一种用于文本类模型的精调阶段蒸馏方法及装置
[0001]本说明书实施例涉及一种模型优化方法及装置,尤其涉及一种模型精调阶段蒸馏方法及装置。
技术介绍
[0002]随着科学技术的快速发展,数据传播范围越来越广,传播速度越来越快,随之而来的是对数据安全的要求不断提高。为满足快速发展的内容风控场景的需要,越来越多的算法与模型被投入使用,但成本问题日益凸显。
[0003]通常采用模型优化和模型合并两个方向展开相应工作来节省机器成本,然而由于内容风控的使用场景类型多、需求广,所使用的模型也有各自的特点。其中,对于BERT模型的“瘦身”的方法主要包括剪枝、蒸馏和量化。
[0004]其中,量化对模型的提升有限,剪枝的效果不稳定,而蒸馏有更好的鲁棒性。
[0005]鉴于此,本说明书实施例希望提出一种新的用于文本类模型的精调阶段蒸馏方法,使模型在训练效果得到提升的同时能较好地控制运算成本。
技术实现思路
[0006]本说明书实施例的目的之一在于提供一种用于文本类模型的精调阶段蒸馏方法,该方法能够使学生模 ...
【技术保护点】
【技术特征摘要】
1.一种用于文本类模型的精调阶段蒸馏方法,所述方法包括:获取训练集样本;获取经过预训练的教师模型,所述教师模型包括多个隐藏层;在所述教师模型的多个隐藏层中选择至少两个指定层;对选定的各指定层聚合,得到聚合后隐藏层;根据所述聚合后隐藏层和教师模型中的剩余非指定层生成学生模型;采用教师模型蒸馏学生模型;将蒸馏后的学生模型重新作为教师模型,直至无法从教师模型中选择出至少两个指定层时,将此时的教师模型作为目标模型。2.如权利要求1所述的用于文本类模型的精调阶段蒸馏方法,其用于风险控制,所述方法包括:获取商品信息文本和/或用户评论文本作为训练集样本;获取经过预训练的教师模型,所述教师模型包括多个隐藏层;所述经过预训练的教师模型用于针对输入其中的商品信息文本和/或用户评论文本,输出风控结果;在所述教师模型的多个隐藏层中选择至少两个指定层;对选定的各指定层聚合,得到聚合后隐藏层;根据所述聚合后隐藏层和教师模型中的剩余的非指定层生成学生模型;采用教师模型蒸馏学生模型;将蒸馏后的学生模型重新作为教师模型,直至无法从教师模型中选择出至少两个指定层时,将此时的教师模型作为目标模型;所述目标模型用于针对输入其中的商品信息文本和/或用户评论文本,输出风控结果。3.如权利要求1所述的用于文本类模型的精调阶段蒸馏方法,其用于情感态度分类,所述方法包括:获取用户评论文本作为训练集样本;获取经过预训练的教师模型,所述教师模型包括多个隐藏层;所述经过预训练的教师模型用于针对输入其中的用户评论文本,输出用户情感态度分类结果;在所述教师模型的多个隐藏层中选择至少两个指定层;对选定的各指定层聚合,得到聚合后隐藏层;根据所述聚合后隐藏层和教师模型中的剩余的非指定层生成学生模型;采用教师模型蒸馏学生模型;将蒸馏后的学生模型重新作为教师模型,直至无法从教师模型中选择出至少两个指定层时,将此时的教师模型作为目标模型;所述目标模型用于针对输入其中的用户评论文本,输出用户情感态度分类结果。4.如权利要求1
‑
3中任意一项所述的用于文本类模型的精调阶段蒸馏方法,在获取训练集样本时也获取训练集样本对应的原始标签;采用教师模型蒸馏学生模型具体包括:将所述训练集样本输入所述学生模型,基于所述学生模型的输出和所述原始标签获得分类损失;将所述训练集样本输入所述教师模型,基于所述教师模型的输出和所述学生模型的输
出获得蒸馏损失;根据所述分类损失和所述蒸馏损失计算总体损失;基于总体损失最小化对所述学生模型进行训练。5.如权利要求4所述的用于文本类模型的精调阶段蒸馏方法,所述教师模型还包括嵌入层、池化层和分类层;基于总体损失最小化对所述学生模型进行训练具体包括:固定所述学生模型中尚未经过聚合的隐藏层和嵌入层的参数,以总体损失最小化为训练目标,更新所述学生模型中本次聚合后隐藏层、池化层和分类层的参数。6.如权利要求1
‑
3中任意一项所述的用于文本类模型的精调阶段蒸馏方法,在所述教师模型的多个隐藏层中选择至少两个指定层包括:在所述教师模型的多个隐藏层中选择至少两个相邻层。7.如权利要求1
‑
3中任意一项所述的用于文本类模型的精调阶段蒸馏方法,对选定的各指定层聚合,得到聚合后隐藏层具体包括:根据所述教师模型的原始隐藏层层数和所述目标模型的隐藏层层数计算获得聚合系数,选择与所述聚合系数等量的指定层,将其聚合为一个聚合后隐藏层。8.如权利要求1
‑
3中任意一项所述的用于文本类模型的精调阶段蒸馏方法,对选定的各指定层聚合,得到聚合后隐藏层具体包括:按照从上往下或从下往上的顺序,将选定的各指定层聚合。9.如权利要求1
‑
3中任意一项所述的用于文本类模型的精调阶段蒸馏方法,对选定的各指定层聚合,得到聚合后隐藏层具体包括:将选定的各指定层中的任意一层隐藏层参数初始化,作为学生模型的聚合后隐藏层的初始参数。10.如权利要求1
‑
3中任意一项所述的用于文本类模型的精调阶段蒸馏方法,还包括:采用所述训练集样本对所述目标模型进行训练,其包括:将所述训练集样本输入所述目标模型,基于所述目标模型的输出和所述原始标签获得分类损失;将所述训练集样本输入对目标模型进行蒸馏的前次教师模型,基于教师模型的输出和所述目标模型的输出获得蒸馏损失;根据所述分类损失和所述蒸馏损失计算总体损失;基于总体损失最小化对所述目标模型进行训练。11.如权利要求10所述的用于文本类模型的精调阶段蒸馏方法,所述目标模型还包括嵌入层、池化层和分类层;基于总体损失最小化对所述目标模型进行训练具体包括:固定所述目标模型中所有聚合后隐藏层和嵌入层的参数,以总体损失最小化为训练目标,更新所述目标模型中池化层和分类层的参数。12.一种用于文本类模型的精调阶段蒸馏装置,其包括:样本获取模块,其获取训练集样本;模型准备模块,其获取经过预训练的教师模型,所述教师模型包括多个隐藏层;蒸馏模块,其在所述教师模型的多个隐藏层中选择至少两个指定层;对选定的各指定...
【专利技术属性】
技术研发人员:陆金星,郭亚,赵智源,祝慧佳,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。