文本分类方法和装置制造方法及图纸

技术编号:13609234 阅读:82 留言:0更新日期:2016-08-29 02:26
本发明专利技术公开了一种文本分类方法,所述方法包括:获取待分类文本,在所述待分类文本中提取关键词,以生成关键词集合;对所述关键词集合中的关键词进行分类以得到多组关键词词组,确定各所述关键词词组在所述关键词集合中所占的比例;计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据所述相关程度值确定所述待分类文本所属类别。本发明专利技术还公开了一种文本分类装置。本发明专利技术实现了在对比文本分类过程中,不需要采用训练语料进行分类器训练,提高了文本分类的效率。

【技术实现步骤摘要】

本专利技术涉及数据处理
,尤其涉及一种文本分类方法和装置
技术介绍
随着网络技术的快速发展,海量的信息资源以文本的形式存在。人们迫切的希望从爆炸式的信息浪潮中快速有效的找到自己感兴趣的内容。文本分类作为信息处理的重要研究方向,是解决文本信息发现的常用方法。文本分类技术在很多领域都有应用,例如,将文本进行分类,分类后的文本用于指导机器翻译中翻译模型的训练。可见,文本分类的精度很重要,精度高的分类文本,可以在其应用领域带来有益效果,而如果文本分类的精度不够,就会给使用这些分类文本的应用带来不利影响。在现有的文本分类方法中,通常都是采用训练语料进行分类器训练,然后用训练后的分类器对文本进行分类的方式进行,分类效率低。
技术实现思路
本专利技术的主要目的在于提供一种文本分类方法和装置,旨在解决现有文本分类效率低下的技术问题。为实现上述目的,本专利技术提供的一种文本分类方法,所述文本分类方法包括:获取待分类文本,在所述待分类文本中提取关键词,以生成关键词集合;对所述关键词集合中的关键词进行分类以得到多组关键词词组,确定各所述关键词词组在所述关键词集合中所占的比例;计算所述比例大于预设阈值本文档来自技高网...

【技术保护点】
一种文本分类方法,其特征在于,所述文本分类方法包括:获取待分类文本,在所述待分类文本中提取关键词,以生成关键词集合;对所述关键词集合中的关键词进行分类以得到多组关键词词组,确定各所述关键词词组在所述关键词集合中所占的比例;计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据所述相关程度值确定所述待分类文本所属类别。

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述文本分类方法包括:获取待分类文本,在所述待分类文本中提取关键词,以生成关键词集合;对所述关键词集合中的关键词进行分类以得到多组关键词词组,确定各所述关键词词组在所述关键词集合中所占的比例;计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据所述相关程度值确定所述待分类文本所属类别。2.如权利要求1所述的文本分类方法,其特征在于,所述获取待分类文本,在所述待分类文本中提取关键词,以生成关键词集合的步骤包括:获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的所述待分类文本;在预处理后的所述待分类文本中提取关键词,以生成关键词集合。3.如权利要求2所述的文本分类方法,其特征在于,所述获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的所述待分类文本的步骤包括:获取待分类文本,删除所述待分类文本中的非相关文本和停用词;通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的所述待分类文本。4.如权利要求1所述的文本分类方法,其特征在于,所述计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据所述相关程度值确定所述待分类文本所属类别的步骤包括:根据K最邻近分类算法计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值;将所述相关程度值大于预设相关程度值的分类参数所属类别作为所述待分类文本所属类别。5.如权利要求1至4任一项所述的文本分类方法,其特征在于,所述计算所述比例大于预设阈值的关键词词组对应的各关键词与预设的分类参数的相关程度值,根据所述相关程度值确定所述待分类文本所属类别的步骤之后,还包括:将...

【专利技术属性】
技术研发人员:张锐
申请(专利权)人:深圳市永兴元科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1