一种文本分类方法、系统、电子设备及存储介质技术方案

技术编号:33774123 阅读:33 留言:0更新日期:2022-06-12 14:27
本公开涉及一种文本分类方法,所述方法包括:确定待分类文本,并对待分类文本中的待分类标题进行向量化表示得到向量化待分类标题;将距离每一向量化待分类标题最近的N个向量化模板标题设置为备选标题,并为备选标题对应的文本类别添加标记;将标记添加次数最多的M个文本类别设置为备选文本类别;将模板分类知识库中属于备选文本类别的模板文件设置为备选模板文件,并根据所有备选模板文件与待分类文本的相似度比对结果确定待分类文本的文本类别,能够在不影响分类精度的前提下提高文本分类效率。本公开还涉及一种文本分类系统、一种电子设备及一种存储介质,具有以上有益效果。具有以上有益效果。具有以上有益效果。

【技术实现步骤摘要】
一种文本分类方法、系统、电子设备及存储介质


[0001]本申请涉及自然语言处理
,特别涉及一种文本分类方法、系统、电子设备及存储介质。

技术介绍

[0002]文本分类作为自然语言处理的一项基本任务,在垃圾邮件识别、网络舆情监控、话题分类等领域具有很高的实际应用价值,其相关研究在人工智能领域广受关注。
[0003]相关技术中,通常将文本分类问题转化为找到待分类文本中的标题与哪种类型的标题模板最相近的问题,进而将最相近的标题模板对应的类别作为待分类文本的类别。但是上述文本分类方法需要将待分类文本中的标题与知识库中的所有标题一一比对,计算过程的时间复杂度较高,影响文本分类效率。
[0004]因此,如何在不影响分类精度的前提下提高文本分类效率是本领域技术人员目前需要解决的技术问题。

技术实现思路

[0005]本申请的目的是提供一种文本分类方法、系统、一种电子设备及一种存储介质,能够在不影响分类精度的前提下提高文本分类效率。
[0006]为解决上述技术问题,本申请提供一种文本分类方法,该文本分类方法包括:...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:确定待分类文本,并对所述待分类文本中的待分类标题进行向量化表示得到向量化待分类标题;将距离每一所述向量化待分类标题最近的N个向量化模板标题设置为备选标题,并为所述备选标题对应的文本类别添加标记;其中,所述向量化模板标题通过对模板分类知识库中的模板标题进行向量化表示得到;将所述标记添加次数最多的M个文本类别设置为备选文本类别;将所述模板分类知识库中属于所述备选文本类别的模板文件设置为备选模板文件,并根据所有所述备选模板文件与所述待分类文本的相似度比对结果确定所述待分类文本的文本类别。2.根据权利要求1所述文本分类方法,其特征在于,对所述待分类文本中的待分类标题进行向量化表示得到向量化待分类标题,包括:对所述待分类文本中的待分类标题进行分词处理,得到第一分词结果;将所述第一分词结果映射至向量空间得到所述待分类标题的向量化待分类标题。3.根据权利要求2所述文本分类方法,其特征在于,将所述第一分词结果映射至向量空间得到所述待分类标题的向量化待分类标题,包括:将所述待分类标题的第一分词结果输入词向量模型Word2vec,得到所述第一分词结果的向量化表示结果;根据所有所述第一分词结果的向量化表示结果确定所述待分类标题的向量化待分类标题。4.根据权利要求1所述文本分类方法,其特征在于,在将距离每一所述向量化待分类标题最近的N个向量化模板标题设置为备选标题之前,还包括:对所述模板标题进行分词处理,得到第二分词结果;将所述第二分词结果映射至向量空间得到所述第二分词结果的向量化表示结果;根据所有所述第二分词结果的向量化表示结果确定所述待分类标题的向量化待分类标题;构建所有所述向量化待分类标题的数据结构Ball Tree;相应的,将距离每一所述向量化待分类标题最近的N个向量化模板标题设置为备选标题,包括:通过所述数据结构Ball Tree计算所述向量化待分类标题与所述向量化模板标题之间的距离,并对距离每一所述向量化待分类标题最近的N个向量化模板标题设置为所述备选标题。5.根据权利要求1所述文本分类方法,其特征在于,根据所有所述备选模板文件与所述待分类文本的相似度比对结果确定所述待分类文本的文本类别,包括:计算所述备选模板文件的模板标题与所述待分类文本的待分类标题之间的最长公共子序列长度,并根据所述最长公共子序列长度确定所述待分类文本与每一所述备选模板文件的第一相似度;计算所...

【专利技术属性】
技术研发人员:彭滢吴杰刘从祥王桥陈建林
申请(专利权)人:成都卫士通信息产业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1