【技术实现步骤摘要】
语言模型的训练方法、电子设备、存储介质及产品
[0001]本申请涉及人工智能
,特别涉及一种语言模型的训练方法、电子设备、存储介质及产品。
技术介绍
[0002]随着人工智能技术的发展,语言模型被广泛应用于NLP(Natural Language Processing,自然语言处理)的各个领域。为提高语言模型的训练速度,通常会基于大量的通用样本语料训练一个预训练语言模型,进而基于训练任务对应的标注标签的训练样本语料,对预训练语言模型的模型参数进行微调,得到完成训练任务的语言模型。
[0003]然而,标注标签的训练样本语料通常较少,基于少量的训练样本语料训练的语言模型精度较低。
技术实现思路
[0004]本申请实施例提供了一种语言模型的训练方法、电子设备、存储介质及产品,能够采用少量的标注标签的训练样本语料训练出精度较高的语言模型。所述技术方案如下:
[0005]第一方面,提供了一种语言模型的训练方法,所述方法包括:
[0006]基于目标训练任务的多个第一训练样本语料,对预训练语言 ...
【技术保护点】
【技术特征摘要】
1.一种语言模型的训练方法,其特征在于,所述方法包括:基于目标训练任务的多个第一训练样本语料,对预训练语言模型进行预设范式训练,得到教师语言模型,所述第一训练样本语料标注有所述目标训练任务需要识别的类别标签;调用所述教师语言模型,对所述目标训练任务的多个第二训练样本语料进行识别,得到多个第二训练样本语料的类别概率分布,所述第二训练样本语料未标注类别标签,且所述第二训练样本语料的数量多于所述第一训练样本语料的数量,所述概率类别分布用于指示所述目标训练任务需要识别的各个类别的概率值;基于多个第二训练样本语料的类别概率分布,计算多个第二训练样本语料的伪标签的确定性数值,所述伪标签为第二训练样本语料的类别概率分布中最大概率值对应的类别,所述确定性数值用于表征所述教师语言模型为第二训练样本语料识别出的伪标签为真实标签的概率;基于多个第二训练样本语料的伪标签的确定性数值,从多个第二训练样本语料中,获取确定性数值满足阈值条件的多个易分训练样本语料;基于多个易分训练样本语料,对所述教师语言模型进行预设范式训练,得到完成所述目标训练任务的学生语言模型。2.根据权利要求1所述的方法,其特征在于,所述教师语言模型的数量为T个,T为正整数,所述基于多个第二训练样本语料的类别概率分布,计算多个第二训练样本语料的伪标签的确定性数值,包括:对于任一第二训练样本语料,基于T个教师语言模型分别对所述第二训练样本语料识别得到的类别概率分布,计算所述第二训练样本语料的信息增益,所述信息增益用于表征T个教师模型识别所述第二训练样本语料的标签为目标伪标签的不确定性程度;根据所述第二训练样本语料的信息增益,计算所述第二训练样本语料的目标伪标签的置信度数值;基于T个教师语言模型分别对所述第二训练样本语料识别得到的类别概率分布,计算所述第二训练样本语料的标签为所述目标伪标签时的平均概率值;基于所述第二训练样本语料的目标伪标签的置信度数值和平均概率值,计算所述第二训练样本语料的确定性数值。3.根据权利要求2所述的方法,其特征在于,所述基于T个教师语言模型分别对所述第二训练样本语料识别得到的类别概率分布,计算所述第二训练样本语料的信息增益,包括:获取所述第二训练样本语料的第一信息熵,所述第一信息熵用于表征所述第二训练样本语料的真实标签为所述目标伪标签时产生的信息量;基于T个教师语言模型分别对所述第二训练样本语料识别得到的类别概率分布,计算所述第二训练样本语料的第二信息熵,所述第二信息熵用于表征经过T个教师语言模型识别得出所述第二训练样本语料的标签为所述目标伪标签时产生的信息量;计算所述第一信息熵与所述第二信息熵之间的差值,得到所述第二训练样本语料的信息增益。4.根据权利要求2所述的方法,其特征在于,所述根据所述第二训练样本语料的信息增益,计算所述第二训练样本语料的目标伪标签的置信度数值,包括:
计算所述第二训练样本语料的各个类别的概率总和与所述信息增...
【专利技术属性】
技术研发人员:汪诚愚,黄俊,
申请(专利权)人:阿里巴巴中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。