【技术实现步骤摘要】
语言模型微调方法、文本分类方法、装置及设备
[0001]本申请实施例涉及计算机
,尤其涉及一种语言模型微调方法、文本分类方法、装置及设备。
技术介绍
[0002]语言模型预训练并微调是一种广泛流行的下游任务实现方式,具体地:通过在已有的预训练模型上添加特定任务层,再微调整个模型的参数来实现特定的下游任务,如情感分析、实体识别、句子相似度计算,等文本分类任务。
[0003]通常情况下,语言模型预训练阶段的训练任务,与微调阶段的任务会存在一定差异。具体地,预训练阶段与微调阶段的任务可能并不相同,或者,很多语言模型在预训练阶段会涉及多个训练任务,从而能够学习到文本中的包含的多种信息,而在模型微调阶段,则仅涉及单个训练任务。
[0004]上述微调方式会造成语言模型预训练阶段学习到的先验知识的遗忘,也就是说,上述微调方式会使得微调阶段无法很好地利用语言模型在预训练阶段从训练样本中学习到的先验知识,因此,微调完成的语言模型的性能较差。
技术实现思路
[0005]有鉴于此,本申请实施例提供一种语言模型微调方法、文本分类方法、装置及设备,以至少部分解决上述问题。
[0006]根据本申请实施例的第一方面,提供了一种语言模型微调方法,包括:
[0007]获取输入词向量,所述输入词向量包括:训练样本的训练样本词向量、第一模板词的第一模板词向量、掩码、第二模板词的第二模板词向量及单个标签词对应的标签词向量;其中,所述训练样本、所述第一模板词及所述掩码构成第一文本句子,所述第二模板词和所述 ...
【技术保护点】
【技术特征摘要】
1.一种语言模型微调方法,包括:获取输入词向量,所述输入词向量包括:训练样本的训练样本词向量、第一模板词的第一模板词向量、掩码、第二模板词的第二模板词向量及单个标签词对应的标签词向量;其中,所述训练样本、所述第一模板词及所述掩码构成第一文本句子,所述第二模板词和所述单个标签词构成第二文本句子;将所述输入词向量输入预训练语言模型,得到所述掩码的词预测结果和针对所述第一文本句子和所述第二文本句子的相邻句子判断结果;基于所述词预测结果和真实标签词得到第一损失值;基于所述相邻句子判断结果和真实判断结果得到第二损失值;根据所述第一损失值和所述第二损失值训练所述预训练语言模型,得到训练完成的语言模型。2.根据权利要求1所述的方法,其中,所述获取输入词向量,包括:获取训练样本、预设的第一模板词、预设的第二模板词以及多个预设的标签词;基于所述训练样本、所述第一模板词、所述第二模板词及单个的所述标签词进行词元组合,得到组合样本;对所述组合样本进行词嵌入操作,得到输入词向量。3.根据权利要求2所述的方法,其中,所述基于所述训练样本、所述第一模板词、所述第二模板词及单个的所述标签词进行词元组合,得到组合样本,包括:从所述多个预设的标签词中选择所述训练样本的真实标签词,以及,所述训练样本的预设数量个非真实标签词,作为目标标签词;基于所述训练样本、所述第一模板词、所述第二模板词及单个的所述目标标签词进行词元组合,得到组合样本。4.一种语言模型微调方法,应用于服务端设备,包括:接收客户端设备发送的训练样本;基于所述训练样本生成输入词向量,所述输入词向量包括:所述训练样本的训练样本词向量、第一模板词的第一模板词向量、掩码、第二模板词的第二模板词向量及单个标签词对应的标签词向量;其中,所述训练样本、所述第一模板词及所述掩码构成第一文本句子,所述第二模板词和所述单个标签词构成第二文本句子;将所述输入词向量输入预训练语言模型,得到所述掩码的词预测结果和针对所述第一文本句子和所述第二文本句子的相邻句子判断结果;基于所述词预测结果和真实标签词得到第一损失值;基于所述相邻句子判断结果和真实判断结果得到第二损失值;根据所述第一损失值和所述第二损失值训练所述预训练语言模型,得到训练完成的语言模型,并将所述训练完成的语言模型返回至所述客户端设备。5.一种文本分类方法,包括:获取待分类的目标文本;针对每个标签词,获取该标签词对应的提示文本向量,并将所述提示文本向量输入预先训练完成的语言模型,得到该标签词对应的词预测结果及相邻句子判断结果;所述提示文本向量包括:所述目标文本的目标文本词向量、掩码、第一模板词向量、第二模板词向量
以及该标签词的标签词向量;基于该标签词对应的词预测结果及相邻句子判断结果,得到该标签词的置信度信息,所述置信度信息表征该标签词为所述目标文本真实标签词的可能性;基于各标签词的置信度信息,确定所述目标文本的类别标签;其中,所述预先训练完成的语言模型通过权利要求1
‑
4任一所述的方法得到。6.根据权利要求5所述的方法,其中,所述基于该标签词对应的词预测结果及相邻句子判断结果,得到该标签词的置信度信息,包括:根据该标签词对应的词预测结果,确定所述掩码的预测词为该标签词的第一概率;根据该标签词对应的相邻句子判断结果,确定第三文本句子和第四文本句子为相邻句子的第二概率;其中,所述第三文本句子包括:所述目标文本、所述第一模板词向量对应的第一模板词以及所述掩码;所述第四文本句子包括:所述第二模板词向量对应的第二模板词和该标签词;融合所述第一概率和所述第二概率,得到该标签词的置信度信息。7.一种文本分类方法,应用于服务端设备,包括:接收客户端设备发送的待分类的目标文本;针对每个标签词,获取该标签词对应的提示文本向量,并将所述提示文本向量输入预先训练完成的语言模型,得到该标签词对应的词预测结果及相邻句子判断结果;所述提示文本向量包括:所述目标文本的目标文本词向量、掩码、第一模板词向量、第二模板词向量以及该标签词的标签词向量;基于该标签词对应的词预测结果及相邻句子判断结果,得到该标签词的置信度信息,所述置信度信息表征该标签词为所述目标文本真实标签词的可能性;基于各标签词的置信度信息,确定所述目标文本的类别标签,并将所述类别标签返回至所述客户端设备;其中,所述预先训练完成的语言模型通过权利要求1
‑
4任一所述的方法得到。8.一种语言模型微调装置,包括:第一获取模块,用于获取输入词向量,所述输入...
【专利技术属性】
技术研发人员:张珍茹,徐海洋,谭传奇,黄松芳,
申请(专利权)人:阿里巴巴中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。