语料分类方法、装置、计算机可读存储介质及电子设备制造方法及图纸

技术编号:37105770 阅读:29 留言:0更新日期:2023-04-01 05:04
本发明专利技术提供一种语料分类方法、装置、计算机可读存储介质及电子设备,获取待分类语料;利用第一分类模型对所述待分类语料进行分类预测,得到第一类别;若所述第一类别属于预先定义的混淆类别范围,对所述待分类语料进行知识增强处理;利用第二分类模型对知识增强处理后的待分类语料进行分类预测,得到第二类别作为分类预测结果,能够提高模型对容易混淆数据样本的区分能力,提高了模型的泛化能力。提高了模型的泛化能力。提高了模型的泛化能力。

【技术实现步骤摘要】
语料分类方法、装置、计算机可读存储介质及电子设备


[0001]本专利技术涉及自然语言处理
,尤其涉及一种语料分类方法、装置、计算机可读存储介质及电子设备。

技术介绍

[0002]随着word2vec、GPT、BERT等模型的出现,NLP(自然语言处理,Natural Language Processing)的研究和应用越来越以预训练语言模型为中心。人们的尝试中,有这样一个流派,它通过改造下游任务、增加专家知识,使任务输入和输出适合原始语言模型,从而在零样本或少样本的场景中获得良好的任务效果——这就是提示学习。从BERT开始,对预训练模型进行Fine

tune已经成为了整个领域的常规范式。但是从GPT

3开始,一种新的范式开始引起大家的关注并越来越流行:Prompting。Prompt

tuning纯凭Prompt撬动了大模型。Prompt

tuning给每个任务定义了自己的Prompt,拼接到数据上作为输入,同时freeze预训练模型进行训练,在没有加额外层的情况下,可以看到随着模型体积增大效果越来越好,最终追上了精调的效果。
[0003]一相关技术中提供了拷贝机制,主要是用于从输入文本序列中选择合适的子序列放到输出,序列中生成概率由两种模式的概率组合而成:生成模式和拷贝模式。然而该技术中,子序列的选择没有统一的标准,采用不同的技术方案选择的结果存在差异性,导致泛化能力降低。
[0004]另一相关技术中提供了主题增强模型,利用生成式主题模型挖掘主题,例如隐含狄利克雷分布(LDA,Latent Dirichlet Allocation),然后通过主题注意力机制将主题表示融入文本生成模型。主题表示提供了关于生成文本的高度语义表示,保证文本连贯性,然而模型结果受到主题挖掘质量影响较大。模型泛化能力差。

技术实现思路

[0005]为解决现有技术中分类模型的泛化能力差的问题,本专利技术提供一种语料分类方法、装置、计算机可读存储介质及电子设备。
[0006]第一方面,本专利技术实施例提供一种语料分类方法,包括:
[0007]获取待分类语料;
[0008]利用第一分类模型对所述待分类语料进行分类预测,得到第一类别;
[0009]若所述第一类别属于预先定义的混淆类别范围,对所述待分类语料进行知识增强处理;
[0010]利用第二分类模型对知识增强处理后的待分类语料进行分类预测,得到第二类别作为分类预测结果。
[0011]在一些实现方式中,所述的语料分类预测方法还包括:
[0012]若所述第一类别不属于预先定义的混淆类别范围,则所述第一类别为分类预测结果。
[0013]在一些实现方式中,所述获取待预测语料之前,还包括:
[0014]获取标注语料作为第一数据集;
[0015]基于所述第一数据集进行预训练模型微调处理,得到第一分类模型;
[0016]采用所述第一分类模型对所述第一数据集进行测试,确定测试结果中的混淆类别,进而定义混淆类别范围;
[0017]对所述混淆类别范围对应的第二数据集进行知识增强得到第三数据集,并以所述第一分类模型为基础预训练模型对所述第三数据集进行Prompt训练,得到第二分类模型。
[0018]在一些实现方式中,所述基于所述第一数据集进行预训练模型微调处理,得到第一分类模型,包括:
[0019]根据目标任务从预训练模型库中选取预训练模型;
[0020]在所述第一数据集上进行所述预训练模型微调得到第一分类模型。
[0021]在一些实现方式中,所述对所述混淆类别范围对应的第二数据集进行知识增强得到第三数据集,包括:
[0022]结合知识库,将所述混淆类别范围对应的第二数据集转换为预设Prompt模板形式的数据,得到第三数据集。
[0023]在一些实现方式中,所述预设Prompt模板包括:包含有两个空位置的自然语言模板,其中,所述两个空位置分别用于填入输入数据和结合知识库生成答案数据。
[0024]在一些实现方式中,所述预设Prompt模板包括:结合知识库将输入数据转换为特征向量的模板。
[0025]第二方面,本专利技术实施例提供一种语料分类预测装置,包括:
[0026]数据获取模块,用于获取待分类语料;
[0027]第一预测模块,用于利用第一分类模型对所述待分类语料进行分类预测,得到第一类别;
[0028]知识增强模块,用于在所述第一类别属于预先定义的混淆类别范围的情况下对所述待分类语料进行知识增强处理;
[0029]第二预测模块,用于利用第二分类模型对知识增强处理后的待分类语料进行分类预测,得到第二类别作为分类预测结果。
[0030]第三方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被一个或多个处理器执行时,实现第一方面所述的语料分类预测方法。
[0031]第四方面,本专利技术实施例提供一种电子设备,包括存储器和一个或多个处理器,所述存储器上存储有计算机程序,所述计算机程序被所述一个或多个处理器执行时实现如第一方面所述的语料分类预测方法。
[0032]本专利技术的一个或多个实施例至少能够带来如下有益效果:
[0033]利用第一分类模型对获取的待分类语料进行分类预测,得到第一类别,在第一类别属于预先定义的混淆类别范围的情况下,对待分类语料进行知识增强处理,并利用第二分类模型对知识增强处理后的待分类语料进行分类预测,得到第二类别作为分类预测结果,利用Prompt对噪音、混淆数据等是非常敏感的特性,去对混淆数据进行知识增强,增强后的数据更加便于区分,利用第二分类模型对知识增强后的数据进行分类预测,能够准确
预测出当前语料对应的类别,提高了模型对容易混淆数据样本的区分能力,提高模型的泛化能力。
附图说明
[0034]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0035]图1是本专利技术实施例提供的一种语料分类方法流程图;
[0036]图2是本专利技术实施例提供的另一种语料分类方法流程图;
[0037]图3是本专利技术实施例提供的三种结合知识库将输入数据转换为特征向量的模板的原理示意图;
[0038]图4是本专利技术实施例提供的一种语料分类装置示意图。
具体实施方式
[0039]下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语料分类方法,其特征在于,包括:获取待分类语料;利用第一分类模型对所述待分类语料进行分类预测,得到第一类别;若所述第一类别属于预先定义的混淆类别范围,对所述待分类语料进行知识增强处理;利用第二分类模型对知识增强处理后的待分类语料进行类别预测,得到第二类别作为分类预测结果。2.根据权利要求1所述的语料分类预测方法,其特征在于,还包括:若所述第一类别不属于预先定义的混淆类别范围,则所述第一类别为分类预测结果。3.根据权利要求1所述的语料分类预测方法,其特征在于,所述获取待预测语料之前,还包括:获取标注语料作为第一数据集;基于所述第一数据集进行预训练模型微调处理,得到第一分类模型;采用所述第一分类模型对所述第一数据集进行测试,确定测试结果中的混淆类别,进而定义混淆类别范围;对所述混淆类别范围对应的第二数据集进行知识增强得到第三数据集,并以所述第一分类模型为基础预训练模型,对所述第三数据集进行Prompt训练,得到第二分类模型。4.根据权利要求3所述的语料分类预测方法,其特征在于,所述基于所述第一数据集进行预训练模型微调处理,得到第一分类模型,包括:根据目标任务从预训练模型库中选取预训练模型;在所述第一数据集上进行所述预训练模型微调得到第一分类模型。5.根据权利要求3所述的语料分类预测方法,其特征在于,所述对所述混淆类别范围对应的第二数据集进行知识增强得到...

【专利技术属性】
技术研发人员:张永兴赵国庆权佳成
申请(专利权)人:北京中关村科金技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1