【技术实现步骤摘要】
语言模型训练方法、装置、设备及存储介质
[0001]本申请实施例涉及机器学习
,特别涉及一种语言模型训练方法、装置、设备及存储介质。
技术介绍
[0002]随着机器学习技术的发展,出现了各种各样的语言模型,用于对语言或文本进行预测。
[0003]在相关技术中,采用全量预训练语料对模型进行训练,训练得到全量预训练后的学生语言模型后,若又获取了新增的预训练语料(即增量预训练语料),会将新增的预训练语料加入到原有的全量预训练语料中,得到个更新后的全量预训练语料,然后采用更新后的全量预训练语料重新训练该学生语言模型。
[0004]在上述相关技术中,由于更新后的全量预训练语料的数据量较大,训练较为耗时。
技术实现思路
[0005]本申请实施例提供了一种语言模型训练方法、装置、设备及存储介质,能够节省语言模型训练的时间。所述技术方案如下:
[0006]根据本申请实施例的一个方面,提供了一种语言模型训练方法,所述方法包括:
[0007]基于全量预训练语料对初始的学生语言模型进行全量预训 ...
【技术保护点】
【技术特征摘要】
1.一种语言模型训练方法,其特征在于,所述方法包括:基于全量预训练语料对初始的学生语言模型进行全量预训练,得到全量预训练后的学生语言模型;基于增量预训练语料对所述全量预训练后的学生语言模型进行增量预训练,得到增量预训练后的学生语言模型;其中,所述增量预训练语料是在所述全量预训练语料的基础上新增的预训练语料;采用教师语言模型对所述增量预训练后的学生语言模型进行知识蒸馏处理,得到蒸馏后的学生语言模型;其中,所述教师语言模型是采用目标任务的第一训练样本集进行训练得到的语言模型;采用所述目标任务的第二训练样本集,对所述蒸馏后的学生语言模型进行参数调整处理,得到完成训练的学生语言模型。2.根据权利要求1所述的方法,其特征在于,所述基于增量预训练语料对所述全量预训练后的学生语言模型进行增量预训练,得到增量预训练后的学生语言模型,包括:获取第一预测结果和第二预测结果,所述第一预测结果是指增量预训练中的学生语言模型在所述增量预训练语料上的预测结果,所述第二预测结果是指所述全量预训练后的学生语言模型在所述增量预训练语料上的预测结果;基于所述第一预测结果、所述第二预测结果和所述增量预训练语料的标签信息,确定第一损失;其中,所述第一损失与所述第一预测结果和所述增量预训练语料的标签信息之间的差异程度相关,且与所述第一预测结果和所述第二预测结果之间的差异程度相关;基于所述第一损失调整所述增量预训练中的学生语言模型的参数,直至满足第一停止条件,得到所述增量预训练后的学生语言模型。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一预测结果、所述第二预测结果和所述增量预训练语料的标签信息,确定第一损失,包括:基于所述第一预测结果和所述增量预训练语料的标签信息,确定第一子损失,所述第一子损失与所述第一预测结果和所述增量预训练语料的标签信息之间的差异程度相关;基于所述第一预测结果和所述第二预测结果,确定第二子损失,所述第二子损失与所述第一预测结果和所述第二预测结果之间的差异程度相关;基于所述第一子损失和所述第二子损失,确定所述第一损失。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:获取第一隐层状态数据和第二隐层状态数据,所述第一隐层状态数据是指所述增量预训练中的学生语言模型在生成所述第一预测结果时的隐层状态数据,所述第二隐层状态数据是指所述全量预训练后的学生语言模型在生成所述第二预测结果时的隐层状态数据;基于所述第一隐层状态数据和所述第二隐层状态数据,确定第三子损失,所述第三子损失与所述第一隐层状态数据和所述第二隐层状态数据之间的差异程度相关;所述基于所述第一子损失和所述第二子损失,确定所述第一损失,包括:基于所述第一子损失、所述第二子损失和所述第三子损失,确定所述第一损失。5.根据权利要求4所述的方法,其特征在于,所述基于所述第一子损失、所述第二子损失和所述第三子损失,确定所述第一损失,包括:获取所述第一子损失、所述第二子损失和所述第三子损失分别对应的权重值;
基于所述权重值对所述第一子损失、所述第二子损失和所述第三子损失进行加权求和,得到所述第一损失。6.根据权利要求2所述的方法,其特征在于,所述获取第一预测结果和第二预测结果,包括:对所述增量预训练语料中的目标文本进行遮盖处理,生成带遮盖的增量预训练语料;通过所述增量预训练中的学生语言模型对所述带遮盖的增量预训练语料进行处理,得到所述第一预测结果,所述第一预测结果包括所述增量预训练中的学生语言模型预测得到的被遮盖文本;通过所述全量预训练后的学生语言模型对所述带遮盖的增量预训练语料进行处理,得到所述第二预测结果,所述第二预测结果包括所述全量预训练后的学生语言模型预测得到的被遮盖文本。7.根据权利要求1所述的方法,其特征在于,所述采用教师语言模型对所述增量预训练后的学生语言模型进行知识蒸馏处理,得到蒸馏后的学生语言模型,包括:基于所述教师语言模型和知识蒸馏语料,确定第一标签信息;其中,所述第一标签信息是指所述教师语言模型在所述知识蒸馏语料上推理得到的标签信息;基于多个所述增量预训练后的学生语言模型和所述知识蒸馏语料,确定多个第二标签信息;其中,所述第二标签信息是指所述增量预训练后的学生语言模型在所述知识蒸馏语料上推理得到的标签信息;对于第i个增量预训练后的学生语言模型,基于所述第一标签信息、所述第i个增量预训练后的学生语言模型对应的第二标签信息以及其他增量预训练后的学生语言模型对应的第二标签信息,确定所述第i个增量预训练后的学生语言模型对应的...
【专利技术属性】
技术研发人员:撖朝润,张海松,徐坤,史树明,傅洛伊,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。