文本的分类方法和装置制造方法及图纸

技术编号：37220745 阅读：14 留言：0更新日期：2023-04-20 23:06

本申请涉及一种文本的分类方法和装置。一个实施例中，通过获取目标预测文本，将目标预测文本输入至训练好的文本分类模型，可以得到该文本的类别。所述文本分类模型可以基于样本文本和类别标签对预训练模型进行训练得到，且在训练之前还包括根据样本文本中词语的信息增益比选出关键词和关联字符，以压缩文本结合预训练模型训练，将收敛后的模型作为文本分类模型。这样，通过选取关键词和关联字符，将文本中信息度低的文本特征过滤掉，形成的压缩文本作为训练集样本效果更高，且可以适配功能更加强大但对输入字符有限制的预训练模型，使训练得到的分类模型预测效果更好。进一步地，利用该分类模型进行预测，得到的分类准确率更高。得到的分类准确率更高。得到的分类准确率更高。

全部详细技术资料下载

【技术实现步骤摘要】
文本的分类方法和装置

[0001]本公开涉及大数据分析领域，尤其涉及一种文本的分类方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]随着移动互联网的发展，信息量规模不断暴增，面对海量的互联网信息，如何进行有效读取和分析成为一大世纪难题。目前，大数据分析是针对上述问题的一种有效解决方式。在大数据分析过程中，为了提高信息抽取的效率和准确率，通常需要预先对文本进行分类，以便根据文本的类型采用更加有效的信息抽取方式。
[0003]由于数据信息来源广泛、格式多样且文本长度跨度较大，人工分类的方式效率低下，现多采用分类模型对文本进行分类。然而，现有的分类模型只能将分散的词语作为特征向量进行下游训练，对于一些跨度较大、内容较多的复杂文本来说，分类效率较低，准确率往往也达不到要求。

技术实现思路

[0004]基于此，针对上述技术问题，提供一种文本的分类方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。本公开的技术方案如下：
[0005]根据本公开实施例的一个方面，提供一种文本的分类方法，包括：
[0006]获取目标预测文本；
[0007]将所述目标预测文本输入至文本分类模型，经所述文本分类模型输出得到所述目标预测文本的类别；所述文本分类模型通过包括以下步骤的方式得到：
[0008]获取样本文本和类别标签；
[0009]对所述样本文本进行分词处理，将经所述分词处理得到的字词作为备选词；
[0010]根据所述备选词在所述类...

【技术保护点】

【技术特征摘要】
1.一种文本的分类方法，其特征在于，包括：获取目标预测文本；将所述目标预测文本输入至文本分类模型，经所述文本分类模型输出得到所述目标预测文本的类别；所述文本分类模型通过包括以下步骤的方式得到：获取样本文本和类别标签；对所述样本文本进行分词处理，将经所述分词处理得到的字词作为备选词；根据所述备选词在所述类别标签下的信息增益比，在所述备选词中选取出第一目标数量的关键词；基于所述关键词，在所述样本文本中提取第二目标数量的关联字符；根据所述关键词和所述关联字符，生成压缩文本；基于所述压缩文本，对预训练模型进行继续训练直至模型收敛，得到所述文本分类模型。2.根据权利要求1所述的方法，其特征在于，在将所述目标预测文本输入至文本分类模型之前，还包括：对所述目标预测文本进行文本预处理，得到目标压缩文本；所述目标压缩文本用于替换所述目标预测文本被输入至所述文本分类模型。3.根据权利要求1所述的方法，其特征在于，所述类别标签包括多个分类类别，所述根据所述备选词在所述类别标签下的信息增益比，在所述备选词中选取出第一目标数量的关键词，包括：计算所述备选词在不同的所述分类类别下的信息增益比之和；根据所述信息增益比之和，在所述备选词中选取出第一目标数量的关键词。4.根据权利要求1所述的方法，其特征在于，所述基于所述关键词，在所述样本文本中提取第二目标数量的关联字符，包括：以所述关键词为基准，在所述样本文本中向前和向后分别提取第三目标数量的字符，将提取到的字符作为关联字符；其中，所述第三目标数量为所述第二目标数量的一半。5.根据权利要求1所述的方法，其特征在于，在根据所述备选词在所述类别标签下的信息增益比，在所述...

【专利技术属性】
技术研发人员：柴玉倩，陶予祺，刘天赏，
申请(专利权)人：企查查科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人