文本分类方法和装置制造方法及图纸

技术编号:13609234 阅读:61 留言:0更新日期:2016-08-29 02:26
本发明专利技术公开了一种文本分类方法,所述方法包括:获取待分类文本,在所述待分类文本中提取关键词,以生成关键词集合;对所述关键词集合中的关键词进行分类以得到多组关键词词组,确定各所述关键词词组在所述关键词集合中所占的比例;计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据所述相关程度值确定所述待分类文本所属类别。本发明专利技术还公开了一种文本分类装置。本发明专利技术实现了在对比文本分类过程中,不需要采用训练语料进行分类器训练,提高了文本分类的效率。

【技术实现步骤摘要】

本专利技术涉及数据处理
,尤其涉及一种文本分类方法和装置
技术介绍
随着网络技术的快速发展,海量的信息资源以文本的形式存在。人们迫切的希望从爆炸式的信息浪潮中快速有效的找到自己感兴趣的内容。文本分类作为信息处理的重要研究方向,是解决文本信息发现的常用方法。文本分类技术在很多领域都有应用,例如,将文本进行分类,分类后的文本用于指导机器翻译中翻译模型的训练。可见,文本分类的精度很重要,精度高的分类文本,可以在其应用领域带来有益效果,而如果文本分类的精度不够,就会给使用这些分类文本的应用带来不利影响。在现有的文本分类方法中,通常都是采用训练语料进行分类器训练,然后用训练后的分类器对文本进行分类的方式进行,分类效率低。
技术实现思路
本专利技术的主要目的在于提供一种文本分类方法和装置,旨在解决现有文本分类效率低下的技术问题。为实现上述目的,本专利技术提供的一种文本分类方法,所述文本分类方法包括:获取待分类文本,在所述待分类文本中提取关键词,以生成关键词集合;对所述关键词集合中的关键词进行分类以得到多组关键词词组,确定各所述关键词词组在所述关键词集合中所占的比例;计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据所述相关程度值确定所述待分类文本所属类别。优选地,所述获取待分类文本,在所述待分类文本中提取关键词,以生成关键词集合的步骤包括:获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的所述待分类文本;在预处理后的所述待分类文本中提取关键词,以生成关键词集合。优选地,所述获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的所述待分类文本的步骤包括:获取待分类文本,删除所述待分类文本中的非相关文本和停用词;通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的所述待分类文本。优选地,所述计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据所述相关程度值确定所述待分类文本所属类别的步骤包括:根据K最邻近分类算法计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值;将所述相关程度值大于预设相关程度值的分类参数所属类别作为所述待分类文本所属类别。优选地,所述计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据所述相关程度值确定所述待分类文本所属类别的步骤之后,还包括:将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本所属类别所对应的分类参数为所述待分类文本建立索引。此外,为实现上述目的,本专利技术还提供一种文本分类装置,所述文本分类装置包括:提取模块,用于获取待分类文本,在所述待分类文本中提取关键词,以生成关键词集合;分类模块,用于对所述关键词集合中的关键词进行分类以得到多组关键词词组,确定各所述关键词词组在所述关键词集合中所占的比例;计算模块,用于计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据所述相关程度值确定所述待分类文本所属类别。优选地,所述提取模块包括:预处理单元,用于获取待分类文本,对所述待分类文本进行预处理操作,
得到预处理后的所述待分类文本;提取单元,用于在预处理后的所述待分类文本中提取关键词,以生成关键词集合。优选地,所述提取模块还包括:删除单元,用于获取待分类文本,删除所述待分类文本中的非相关文本和停用词;分词处理单元,用于通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的所述待分类文本。优选地,所述计算模块包括:计算单元,用于根据K最邻近分类算法计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值;处理单元,用于将所述相关程度值大于预设相关程度值的分类参数所属类别作为所述待分类文本所属类别。优选地,所述文本分类装置包括:存储模块,用于将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本所属类别所对应的分类参数为所述待分类文本建立索引。本专利技术通过在获取的待分类文本中提取关键词集合,对关键词集合中的关键词进行分类以得到关键词词组,并确定各关键词词组在所述关键词集合中所占的比例,根据所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值确定待分类文本所属类别。实现了在对比文本分类过程中,不需要采用训练语料进行分类器训练,提高了文本分类的效率。附图说明图1为本专利技术文本分类方法的第一实施例的流程示意图;图2为本专利技术实施例中获取待分类文本,在所述待分类文本中提取关键词,以生成关键词集合的一种流程示意图;图3为本专利技术文本分类方法的第二实施例的流程示意图;图4为本专利技术文本分类装置的第一实施例的功能模块示意图;图5为本专利技术实施例中提取模块的一种功能模块示意图;图6为本专利技术文本分类装置的第二实施例的功能模块示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术提供一种文本分类方法。参照图1,图1为本专利技术文本分类方法第一实施例的流程示意图。在本实施例中,所述文本分类方法包括:步骤S10,获取待分类文本,在所述待分类文本中提取关键词,以生成关键词集合;获取待分类文本,所述获取待分类文本的方法包括但不限于从所储存文本的数据库获取,或者从其它终端,如手机、个人计算机中获取等,所述待分类文本包括但不限于word文本、excel文本、PDF(Portable Document Format,便携式文档格式)文本等。当获取到所述待分类文本时,在所述待分类文本中提取关键词,以生成所述待分类文本的关键词集合。如当获取的待分类文本是名为“上班族保健养生知识”word文本时,在所述“上班族保健养生知识”word文本中提取的关键词集合为“上班族/社会/发展/生力军/身体状况/健康/保健/养生/久坐成疾/运动/颈椎疾病/腰背痛/驼背/肥胖/脂肪/血液循环”。在具体实施例中,所述“上班族保健养生知识”word文本中的关键词集合中的关键词不限制于上述所列举的词语。步骤S20,对所述关键词集合中的关键词进行分类以得到多组关键词词组,确定各所述关键词词组在所述关键词集合中所占的比例;当获取到所述待分类文本中的关键词集合时,对所述关键词集合中的关键词进行分类,确定所述关键词集合中各关键词的类别,以得到多组关键词词组,并计算每组关键词词组在所述关键词集合所占的比例。如当获取到所述“上班族保健养生知识”word文本的关键词集合为“上班族/社会/发展/生力军/身体状况/健康/保健/养生/久坐成疾/运动/颈椎疾病/腰背痛/驼背/肥胖/脂
肪/血液循环”时,将所述“上班族保健养生知识”word文本中关键词集合的关键词分为(1)“上班族”,(2)“社会/发展”,(3)“生力军”,(4)“身体状况/健康/保健/养生/运动”,(5)“久坐成疾/颈椎疾病/腰背痛/驼背/肥胖/脂肪/血液循环”这5组关键词词组,确定这5组关键词词组在所述“上班族保本文档来自技高网
...

【技术保护点】
一种文本分类方法,其特征在于,所述文本分类方法包括:获取待分类文本,在所述待分类文本中提取关键词,以生成关键词集合;对所述关键词集合中的关键词进行分类以得到多组关键词词组,确定各所述关键词词组在所述关键词集合中所占的比例;计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据所述相关程度值确定所述待分类文本所属类别。

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述文本分类方法包括:获取待分类文本,在所述待分类文本中提取关键词,以生成关键词集合;对所述关键词集合中的关键词进行分类以得到多组关键词词组,确定各所述关键词词组在所述关键词集合中所占的比例;计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据所述相关程度值确定所述待分类文本所属类别。2.如权利要求1所述的文本分类方法,其特征在于,所述获取待分类文本,在所述待分类文本中提取关键词,以生成关键词集合的步骤包括:获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的所述待分类文本;在预处理后的所述待分类文本中提取关键词,以生成关键词集合。3.如权利要求2所述的文本分类方法,其特征在于,所述获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的所述待分类文本的步骤包括:获取待分类文本,删除所述待分类文本中的非相关文本和停用词;通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的所述待分类文本。4.如权利要求1所述的文本分类方法,其特征在于,所述计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据所述相关程度值确定所述待分类文本所属类别的步骤包括:根据K最邻近分类算法计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值;将所述相关程度值大于预设相关程度值的分类参数所属类别作为所述待分类文本所属类别。5.如权利要求1至4任一项所述的文本分类方法,其特征在于,所述计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据所述相关程度值确定所述待分类文本所属类别的步骤之后,还包括:将...

【专利技术属性】
技术研发人员:张锐
申请(专利权)人:深圳市永兴元科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1