文本的分类方法和装置制造方法及图纸

技术编号:37220745 阅读:14 留言:0更新日期:2023-04-20 23:06
本申请涉及一种文本的分类方法和装置。一个实施例中,通过获取目标预测文本,将目标预测文本输入至训练好的文本分类模型,可以得到该文本的类别。所述文本分类模型可以基于样本文本和类别标签对预训练模型进行训练得到,且在训练之前还包括根据样本文本中词语的信息增益比选出关键词和关联字符,以压缩文本结合预训练模型训练,将收敛后的模型作为文本分类模型。这样,通过选取关键词和关联字符,将文本中信息度低的文本特征过滤掉,形成的压缩文本作为训练集样本效果更高,且可以适配功能更加强大但对输入字符有限制的预训练模型,使训练得到的分类模型预测效果更好。进一步地,利用该分类模型进行预测,得到的分类准确率更高。得到的分类准确率更高。得到的分类准确率更高。

【技术实现步骤摘要】
文本的分类方法和装置


[0001]本公开涉及大数据分析领域,尤其涉及一种文本的分类方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]随着移动互联网的发展,信息量规模不断暴增,面对海量的互联网信息,如何进行有效读取和分析成为一大世纪难题。目前,大数据分析是针对上述问题的一种有效解决方式。在大数据分析过程中,为了提高信息抽取的效率和准确率,通常需要预先对文本进行分类,以便根据文本的类型采用更加有效的信息抽取方式。
[0003]由于数据信息来源广泛、格式多样且文本长度跨度较大,人工分类的方式效率低下,现多采用分类模型对文本进行分类。然而,现有的分类模型只能将分散的词语作为特征向量进行下游训练,对于一些跨度较大、内容较多的复杂文本来说,分类效率较低,准确率往往也达不到要求。

技术实现思路

[0004]基于此,针对上述技术问题,提供一种文本的分类方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。本公开的技术方案如下:
[0005]根据本公开实施例的一个方面,提供一种文本的分类方法,包括:
[0006]获取目标预测文本;
[0007]将所述目标预测文本输入至文本分类模型,经所述文本分类模型输出得到所述目标预测文本的类别;所述文本分类模型通过包括以下步骤的方式得到:
[0008]获取样本文本和类别标签;
[0009]对所述样本文本进行分词处理,将经所述分词处理得到的字词作为备选词;
[0010]根据所述备选词在所述类别标签下的信息增益比,在所述备选词中选取出第一目标数量的关键词;
[0011]基于所述关键词,在所述样本文本中提取第二目标数量的关联字符;
[0012]根据所述关键词和所述关联字符,生成压缩文本;
[0013]基于所述压缩文本,对预训练模型进行继续训练直至模型收敛,得到所述文本分类模型。
[0014]在其中一个实施例中,在将所述目标预测文本输入至文本分类模型之前,还包括:
[0015]对所述目标预测文本进行文本预处理,得到目标压缩文本;所述目标压缩文本用于替换所述目标预测文本被输入至所述文本分类模型。
[0016]在其中一个实施例中,所述预训练的关键词提取模型包括多种关键词提取模式,所述关键词提取模型输出目标关键词,包括:
[0017]根据所述目标提取文本获取所述目标语句的类别,并选择与所述类别对应的关键词提取模式;
[0018]按照所述关键词提取模式对所述目标语句进行提取,得到目标关键词并输出所述目标关键词。
[0019]在其中一个实施例中,所述类别标签包括多个分类类别,所述根据所述备选词在所述类别标签下的信息增益比,在所述备选词中选取出第一目标数量的关键词,包括:
[0020]计算所述备选词在不同的所述分类类别下的信息增益比之和;
[0021]根据所述信息增益比之和,在所述备选词中选取出第一目标数量的关键词。
[0022]在其中一个实施例中,所述基于所述关键词,在所述样本文本中提取第二目标数量的关联字符,包括:
[0023]以所述关键词为基准,在所述样本文本中向前和向后分别提取第三目标数量的字符,将提取到的字符作为关联字符;其中,所述第三目标数量为所述第二目标数量的一半。
[0024]在其中一个实施例中,在根据所述备选词在所述类别标签下的信息增益比,在所述备选词中选取出第一目标数量的关键词之前,还包括:
[0025]根据预设的校验标准对所述备选词进行校验;
[0026]将未通过校验的所述备选词用于选取所述关键词。
[0027]在其中一个实施例中,所述基于所述压缩文本,对预训练模型进行继续训练直至模型收敛,得到文本分类模型,包括:
[0028]将所述压缩文本输入至预训练模型;
[0029]对所述预训练模型进行微调,直至所述预训练模型收敛;
[0030]将收敛后的所述预训练模型作为文本分类模型。
[0031]根据本公开实施例的另一方面,提供一种文本的分类装置,包括:
[0032]文本获取模块,用于获取目标预测文本;
[0033]分类预测模块,用于将所述目标预测文本输入至文本分类模型,经所述文本分类模型输出得到所述目标预测文本的类别;所述文本分类模型通过包括以下步骤的方式得到:
[0034]获取样本文本和类别标签;
[0035]对所述样本文本进行分词处理,将经所述分词处理得到的字词作为备选词;
[0036]根据所述备选词在所述类别标签下的信息增益比,在所述备选词中选取出第一目标数量的关键词;
[0037]基于所述关键词,在所述样本文本中提取第二目标数量的关联字符;
[0038]根据所述关键词和所述关联字符,生成压缩文本;
[0039]基于所述压缩文本,对预训练模型进行训练直至模型收敛,得到所述文本分类模型。
[0040]根据本公开实施例的另一方面,还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
[0041]根据本公开实施例的另一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
[0042]根据本公开实施例的另一方面,还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
[0043]本公开实施例提供的技术方案中,通过获取目标预测文本,将目标预测文本输入
至训练好的文本分类模型,可以得到该文本的类别。所述文本分类模型可以基于样本文本和类别标签对预训练模型进行训练得到,且在训练之前还包括根据样本文本中词语的信息增益比选出关键词和关联字符,以压缩文本结合预训练模型训练,将收敛后的模型作为文本分类模型。这样,通过选取关键词和关联字符,将文本中信息度低的文本特征过滤掉,形成的压缩文本作为训练集样本效果更高,且可以适配功能更加强大但对输入字符有限制的预训练模型,使训练得到的分类模型预测效果更好。进一步地,利用该分类模型进行预测,得到的分类准确率更高。
[0044]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0045]为了更清楚地说明本说明书实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0046]图1是一个实施例中一种文本的分类方法的流程示意图;
[0047]图2是一个实施例中在备选词中选取关键词的流程示意图;
[0048]图3是一个实施例中根据预设的校验标准对备选词进行校验的流程示意图;
[0049]图4是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本的分类方法,其特征在于,包括:获取目标预测文本;将所述目标预测文本输入至文本分类模型,经所述文本分类模型输出得到所述目标预测文本的类别;所述文本分类模型通过包括以下步骤的方式得到:获取样本文本和类别标签;对所述样本文本进行分词处理,将经所述分词处理得到的字词作为备选词;根据所述备选词在所述类别标签下的信息增益比,在所述备选词中选取出第一目标数量的关键词;基于所述关键词,在所述样本文本中提取第二目标数量的关联字符;根据所述关键词和所述关联字符,生成压缩文本;基于所述压缩文本,对预训练模型进行继续训练直至模型收敛,得到所述文本分类模型。2.根据权利要求1所述的方法,其特征在于,在将所述目标预测文本输入至文本分类模型之前,还包括:对所述目标预测文本进行文本预处理,得到目标压缩文本;所述目标压缩文本用于替换所述目标预测文本被输入至所述文本分类模型。3.根据权利要求1所述的方法,其特征在于,所述类别标签包括多个分类类别,所述根据所述备选词在所述类别标签下的信息增益比,在所述备选词中选取出第一目标数量的关键词,包括:计算所述备选词在不同的所述分类类别下的信息增益比之和;根据所述信息增益比之和,在所述备选词中选取出第一目标数量的关键词。4.根据权利要求1所述的方法,其特征在于,所述基于所述关键词,在所述样本文本中提取第二目标数量的关联字符,包括:以所述关键词为基准,在所述样本文本中向前和向后分别提取第三目标数量的字符,将提取到的字符作为关联字符;其中,所述第三目标数量为所述第二目标数量的一半。5.根据权利要求1所述的方法,其特征在于,在根据所述备选词在所述类别标签下的信息增益比,在所述...

【专利技术属性】
技术研发人员:柴玉倩陶予祺刘天赏
申请(专利权)人:企查查科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1