一种训练分类模型、对文本分类的方法及装置制造方法及图纸

技术编号:39187138 阅读:11 留言:0更新日期:2023-10-27 08:34
本申请提供了一种训练分类模型、对文本分类的方法及装置。获取待处理文本,待处理文本中至少包括线上分类文本、线上问题、多个线上分类标签以及各个线上分类标签分别对应的预测概率填写位;线上问题用于提示预测线上分类文本针对线上问题的答案分别属于各个线上分类标签的预测概率;基于分类模型预测用于在待处理文本中的各个线上分类标签分别对应的预测概率填写位上填写的预测概率,预测概率包括线上分类文本针对线上问题的答案分别属于各个线上分类标签的概率;本申请对zero

【技术实现步骤摘要】
一种训练分类模型、对文本分类的方法及装置


[0001]本申请涉及计算机领域,特别涉及一种训练分类模型、对文本分类的方法及装置。

技术介绍

[0002]当前,网络上出现了越来越多的服务平台,服务平台可以为用户提供服务,例如,购物平台为广大购物者提供购物服务,游戏平台为广大玩家提供游戏服务以及聊天平台为广大聊天者提供聊天服务等,为了更好地为用户提供服务以提高服务平台的竞争力,可以搜集用户的偏好分类,以根据用户的偏好分类针对性地为用户提供服务,以实现在为用户提供服务的情况下尽可能地满足用户的核心需求,以增加用户对服务平台的粘性。
[0003]目前,可以是使用模型获取用户的偏好分类。但是,目前使用模型获取的用户的偏好分类的准确率低。另外,事先需要训练模型,训练模型之前需要对数据标注,标注工作量大,人工成本高。其次,目前使用模型获取用户的偏好分类的效率低。

技术实现思路

[0004]本申请示出了一种训练分类模型、对文本分类的方法及装置。
[0005]第一方面,示出了一种训练分类模型的方法,包括:获取预训练的语言模型;获取第一训练文本,第一训练文本中至少包括第一样本分类文本、第一样本问题、多个第一样本分类标签以及各个第一样本分类标签分别对应的预测概率填写位;第一样本问题用于提示预测第一样本分类文本针对第一样本问题的答案分别属于各个第一样本分类标签的预测概率;获取第一样本分类文本的第一标注分类标签,第一标注分类标签为多个第一样本分类标签中的其中一个;至少使用第一训练文本以及第一标注分类标签,对预训练的语言模型进行针对各个第一样本分类标签分别对应的预测概率填写位的概率预测任务的优化学习,得到分类模型,概率预测任务包括预测第一样本分类文本针对第一样本问题的答案分别属于各个第一样本分类标签的预测概率的任务。
[0006]第二方面,示出了一种对文本分类的方法,包括:获取第一待处理文本,第一待处理文本中至少包括第一线上分类文本、第一线上问题、多个第一线上分类标签以及各个第一线上分类标签分别对应的预测概率填写位;第一线上问题用于提示预测第一线上分类文本针对第一线上问题的答案分别属于各个第一线上分类标签的预测概率;基于已训练的分类模型,预测用于在第一待处理文本中的各个第一线上分类标签分别对应的预测概率填写位上填写的预测概率,预测概率包括第一线上分类文本针对第一线上问题的答案分别属于各个第一线上分类标签的概率;其中,已训练的分类模型是至少使用第一训练文本以及第一标注分类标签,对预训练的语言模型进行针对各个第一样本分类标签分别对应的预测概率填写位的概率预测任务的优化学习后得到的,概率预测任务包括预测第一样本分类文本针对第一样本问题的答案分别属于各个第一样本分类标签的预测概率的任务;第一训练文本中至少包括第一样本分类文本、第一样本问题、多个第一样本分类标签以及各个第一样本分类标签分别对应的预测概率填写位;第一样本问题用于提示预测第一样本分类文本针
对第一样本问题的答案分别属于各个第一样本分类标签的预测概率;第一标注分类标签为多个第一样本分类标签中的其中一个。
[0007]第三方面,示出了一种训练分类模型的装置,包括:第一获取模块,用于获取预训练的语言模型;第二获取模块,用于获取第一训练文本,第一训练文本中至少包括第一样本分类文本、第一样本问题、多个第一样本分类标签以及各个第一样本分类标签分别对应的预测概率填写位;第一样本问题用于提示预测第一样本分类文本针对第一样本问题的答案分别属于各个第一样本分类标签的预测概率;第三获取模块,用于获取第一样本分类文本的第一标注分类标签,第一标注分类标签为多个第一样本分类标签中的其中一个;优化学习模块,用于至少使用第一训练文本以及第一标注分类标签,对预训练的语言模型进行针对各个第一样本分类标签分别对应的预测概率填写位的概率预测任务的优化学习,得到分类模型,概率预测任务包括预测第一样本分类文本针对第一样本问题的答案分别属于各个第一样本分类标签的预测概率的任务。
[0008]第四方面,示出了一种对文本分类的装置,包括:第四获取模块,用于获取第一待处理文本,第一待处理文本中至少包括第一线上分类文本、第一线上问题、多个第一线上分类标签以及各个第一线上分类标签分别对应的预测概率填写位;第一线上问题用于提示预测第一线上分类文本针对第一线上问题的答案分别属于各个第一线上分类标签的预测概率;预测模块,用于基于已训练的分类模型,预测用于在第一待处理文本中的各个第一线上分类标签分别对应的预测概率填写位上填写的预测概率,预测概率包括第一线上分类文本针对第一线上问题的答案分别属于各个第一线上分类标签的概率;其中,已训练的分类模型是至少使用第一训练文本以及第一标注分类标签,对预训练的语言模型进行针对各个第一样本分类标签分别对应的预测概率填写位的概率预测任务的优化学习后得到的,概率预测任务包括预测第一样本分类文本针对第一样本问题的答案分别属于各个第一样本分类标签的预测概率的任务;第一训练文本中至少包括第一样本分类文本、第一样本问题、多个第一样本分类标签以及各个第一样本分类标签分别对应的预测概率填写位;第一样本问题用于提示预测第一样本分类文本针对第一样本问题的答案分别属于各个第一样本分类标签的预测概率;第一标注分类标签为多个第一样本分类标签中的其中一个。
[0009]第五方面,示出了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行如前述的任一方面所示的方法。
[0010]第六方面,示出了一种非临时性计算机可读存储介质,当存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如前述的任一方面所示的方法。
[0011]第七方面,示出了一种计算机程序产品,当计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备能够执行如前述的任一方面所示的方法。
[0012]在本申请中,可以将样本分类文本、样本问题、多个样本分类标签以及各个样本分类标签分别对应的预测概率填写位组合以得到训练文本,并使用样本分类文本的标注分类标签,对“根据样本问题在各个样本分类标签分别对应的预测概率填写位上填写的预测概率”进行监督训练,以实现对预训练的语言模型进行针对各个样本分类标签分别对应的预测概率填写位的概率预测任务的优化学习,从而得到分类模型,以使分类模型在预测文本针对问题的答案分别属于各个分类标签的预测概率的预测任务上的性能更好(例如预测准确率更高等)。
[0013]另外,输入本申请的分类模型的待处理文本中至少包括线上分类文本、线上问题、多个线上分类标签以及各个线上分类标签分别对应的预测概率填写位,也即,分类模型会获知本次针对需要分类的线上分类文本进行哪些分类标签的分类,分类模型可以获知本次对线上分类文本的分类范围,例如,是在待处理文本中的多个线上分类标签的范围内分类,而不是在其他分类标签的范围内分类,且分类模型具有“预测线上分类文本针对线上问题的答案分别属于各个线上分类标签的预测概率”的能力,即使分类模型之前未曾感知到过待处理文本中的多个线上分类标签,但是,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练分类模型的方法,其特征在于,所述方法包括:获取预训练的语言模型;获取第一训练文本,第一训练文本中至少包括第一样本分类文本、第一样本问题、多个第一样本分类标签以及各个第一样本分类标签分别对应的预测概率填写位;第一样本问题用于提示预测第一样本分类文本针对第一样本问题的答案分别属于各个第一样本分类标签的预测概率;获取第一样本分类文本的第一标注分类标签,第一标注分类标签为多个第一样本分类标签中的其中一个;至少使用第一训练文本以及第一标注分类标签,对预训练的语言模型进行针对各个第一样本分类标签分别对应的预测概率填写位的概率预测任务的优化学习,得到分类模型,概率预测任务包括预测第一样本分类文本针对第一样本问题的答案分别属于各个第一样本分类标签的预测概率的任务。2.根据权利要求1所述的方法,其特征在于,所述至少使用第一训练文本以及第一标注分类标签,对预训练的语言模型进行针对各个第一样本分类标签分别对应的预测概率填写位的概率预测任务的优化学习,得到分类模型,包括:对第一训练文本中的第一样本分类文本中的至少一个字符掩码,得到掩码训练文本;至少使用掩码训练文本以及第一标注分类标签,对预训练的语言模型进行针对各个第一样本分类标签分别对应的预测概率填写位的概率预测任务的优化学习,得到分类模型。3.一种对文本分类的方法,其特征在于,所述方法包括:获取第一待处理文本,第一待处理文本中至少包括第一线上分类文本、第一线上问题、多个第一线上分类标签以及各个第一线上分类标签分别对应的预测概率填写位;第一线上问题用于提示预测第一线上分类文本针对第一线上问题的答案分别属于各个第一线上分类标签的预测概率;基于已训练的分类模型,预测用于在第一待处理文本中的各个第一线上分类标签分别对应的预测概率填写位上填写的预测概率,预测概率包括第一线上分类文本针对第一线上问题的答案分别属于各个第一线上分类标签的概率;其中,已训练的分类模型是至少使用第一训练文本以及第一标注分类标签,对预训练的语言模型进行针对各个第一样本分类标签分别对应的预测概率填写位的概率预测任务的优化学习后得到的,概率预测任务包括预测第一样本分类文本针对第一样本问题的答案分别属于各个第一样本分类标签的预测概率的任务;第一训练文本中至少包括第一样本分类文本、第一样本问题、多个第一样本分类标签以及各个第一样本分类标签分别对应的预测概率填写位;第一样本问题用于提示预测第一样本分类文本针对第一样本问题的答案分别属于各个第一样本分类标签的预测概率;第一标注分类标签为多个第一样本分类标签中的其中一个。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:至少显示第一线上分类文本针对第一线上问题的答案属于至少部分第一线上分类标签的预测概率。5.根据权利要求4所述的方法,其特征在于,所述至少显示第一线上分类文本针对第一线上问题的答案属于至少部分第一线上分类标签的预测概率,包括:在多个第一线上分类标签均为用户输入的情况下,显示第一线上分类文本针对第一线上问题的答案分别属于各个第一线上分类标签的概率;
或者,在多个第一线上分类标签中的部分第一线上分类标签为用户输入的情况下,显示所述部分第一线上分类文本针对第一线上问题的答案属于至少部分第一线上分类标签的概率。6.根据权利要求3所述的方法,其特征在于,所述获取第一待处理文本,包括:获取第一线上分类文本,获取多个第一线上分类标签以及获取第一线上问题;至少根据第一线上分类文本、多个第一线上分类标签以及第一线上问题,生成第...

【专利技术属性】
技术研发人员:朱杰郭立帆曾海峰陈风
申请(专利权)人:阿里云计算有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1