语料分类方法、装置、计算机可读存储介质及电子设备制造方法及图纸

技术编号:37105770 阅读:32 留言:0更新日期:2023-04-01 05:04
本发明专利技术提供一种语料分类方法、装置、计算机可读存储介质及电子设备,获取待分类语料;利用第一分类模型对所述待分类语料进行分类预测,得到第一类别;若所述第一类别属于预先定义的混淆类别范围,对所述待分类语料进行知识增强处理;利用第二分类模型对知识增强处理后的待分类语料进行分类预测,得到第二类别作为分类预测结果,能够提高模型对容易混淆数据样本的区分能力,提高了模型的泛化能力。提高了模型的泛化能力。提高了模型的泛化能力。

【技术实现步骤摘要】
语料分类方法、装置、计算机可读存储介质及电子设备


[0001]本专利技术涉及自然语言处理
,尤其涉及一种语料分类方法、装置、计算机可读存储介质及电子设备。

技术介绍

[0002]随着word2vec、GPT、BERT等模型的出现,NLP(自然语言处理,Natural Language Processing)的研究和应用越来越以预训练语言模型为中心。人们的尝试中,有这样一个流派,它通过改造下游任务、增加专家知识,使任务输入和输出适合原始语言模型,从而在零样本或少样本的场景中获得良好的任务效果——这就是提示学习。从BERT开始,对预训练模型进行Fine

tune已经成为了整个领域的常规范式。但是从GPT

3开始,一种新的范式开始引起大家的关注并越来越流行:Prompting。Prompt

tuning纯凭Prompt撬动了大模型。Prompt

tuning给每个任务定义了自己的Prompt,拼接到数据上作为输入,同时freeze预训练模型进行训练,在没有加额外层的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语料分类方法,其特征在于,包括:获取待分类语料;利用第一分类模型对所述待分类语料进行分类预测,得到第一类别;若所述第一类别属于预先定义的混淆类别范围,对所述待分类语料进行知识增强处理;利用第二分类模型对知识增强处理后的待分类语料进行类别预测,得到第二类别作为分类预测结果。2.根据权利要求1所述的语料分类预测方法,其特征在于,还包括:若所述第一类别不属于预先定义的混淆类别范围,则所述第一类别为分类预测结果。3.根据权利要求1所述的语料分类预测方法,其特征在于,所述获取待预测语料之前,还包括:获取标注语料作为第一数据集;基于所述第一数据集进行预训练模型微调处理,得到第一分类模型;采用所述第一分类模型对所述第一数据集进行测试,确定测试结果中的混淆类别,进而定义混淆类别范围;对所述混淆类别范围对应的第二数据集进行知识增强得到第三数据集,并以所述第一分类模型为基础预训练模型,对所述第三数据集进行Prompt训练,得到第二分类模型。4.根据权利要求3所述的语料分类预测方法,其特征在于,所述基于所述第一数据集进行预训练模型微调处理,得到第一分类模型,包括:根据目标任务从预训练模型库中选取预训练模型;在所述第一数据集上进行所述预训练模型微调得到第一分类模型。5.根据权利要求3所述的语料分类预测方法,其特征在于,所述对所述混淆类别范围对应的第二数据集进行知识增强得到...

【专利技术属性】
技术研发人员:张永兴赵国庆权佳成
申请(专利权)人:北京中关村科金技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1