一种基于SVM的文本分类方法及装置制造方法及图纸

技术编号:18426270 阅读:17 留言:0更新日期:2018-07-12 01:58
本发明专利技术公开一种基于SVM的文本分类方法,其包括:步骤a:对文本进行切词、删词和分类处理;步骤b,由于分词后的词语数量众多,需要对特征进行简约化,以减少计算量;步骤c,提取特征词权重,用实向量表示文本;步骤d,用SVM对文本特征权重向量进行训练,得到分类器;还公开了一种与以上所述基于SVM的文本分类方法相对应的装置,该装置包括文本分类模块、文本特征简化模块、文本实向量表示模块和分类器生成模块。这样,本发明专利技术采用基于词典和基于统计的分词方法,提高了分词速度;利用信息熵提取特征信息,有效的降低了维度,减少了计算量;用TF‑IDF提取特征词权重,把原本非结构化的文本信息转化为结构化信息,有利于进一步处理。

A text classification method and device based on SVM

The present invention discloses a text classification method based on SVM, which includes: step a: word segmentation, deletion and classification of text; step B, because the number of words after the word segmentation is large, we need to simplify the feature to reduce the amount of computation; step C, extract the weight of the feature words, express the text with the real vector; step D, SVM is used to train the weight vector of text feature to get the classifier, and a device corresponding to the SVM based text classification method described above is also disclosed. The device includes text classification module, text feature simplification module, Wen Benshi vector representation module and classifier generating module. In this way, the invention adopts a dictionary based and statistical based word segmentation method to improve the speed of word segmentation, using information entropy to extract feature information, effectively reducing the dimension and reducing the amount of calculation; using TF IDF to extract the weight of feature words and transform the original unstructured text information into structured information, which is beneficial to further processing. .

【技术实现步骤摘要】
一种基于SVM的文本分类方法及装置
本专利技术属于信息检索、信息抽取领域,具体涉及一种基于SVM的文本分类方法及装置。
技术介绍
20世纪90年代,随着网上在线文本的大量涌现和机器学习的兴起,大规模的文本(包括网页)分类和检索又重新引起学者兴趣。文本分类系统首先通过在预先分类好的文本集上训练,建立一个判别规则或分类器,从而对未知类别的新样本进行自动归类。大量的结果表明它的分类精度比得上专家手工分类的结果,并且它的学习不需要专家干预,能适用于任何领域的学习,使得它成为目前文本分类的主流方法。1995年Vapnik提出了基于统计学习理论提出了支持向量机(SVM),思想就是寻求一个最优分类超平面,用支持向量机做分类具有分类精度较高等优点。鉴于上述优点,本专利技术创作者经过长时间的研究和实践终于获得了本专利技术。
技术实现思路
为解决上述技术需求,本专利技术采用的技术方案在于,提供一种基于SVM的文本分类方法,其包括:步骤a:对文本进行切词、删词和分类处理;步骤b,由于分词后的词语数量众多,需要对特征进行简约化,以减少计算量;步骤c,提取特征词权重,用实向量表示文本;步骤d,用SVM对文本特征权重向量进行训练,得到分类器。较佳的,所述步骤a包括:步骤a1,对文本进行切词处理;切词时同时采用正向最大匹配法和逆向最大匹配法,当这两种方法产生的分词结果一致时,可以认为没有产生切分歧义,沿用分词结果,如果用这两种方法所产生的分词结果不一致时,认为产生分词歧义,此时用分词粗分方法来尽可能提高分词准确率;步骤a2,对文本进行删词处理;在分词结束后,根据停用词表将一些常出现在文本中的不提供任何文本信息的词先剔除;步骤a3,对文本进行分类处理;根据下面的规则来进行分类:一个文本所属的类别只与一些特征词在文本中出现的频率有关,与这些词出现的顺序无关。较佳的,步骤a1中正向最大匹配法包括:步骤1,从左向右获取文本M个字,如果获得的M个字字串长度小于2,则返回,表明切分结束,否则转到步骤2;步骤2,在词典中找到所述M个字,则匹配成功,进行切分操作,并转到1,否则转到步骤3;步骤3,把字串去掉最后一个字,如果字串长度小于2,则进行切分,转到步骤1,否则转到步骤4;步骤4,进行剩余的字串是否是词的判断,若是词,进行切分操作,并转到步骤1,否则转到步骤3。较佳的,步骤a1中逆向最大匹配法包括:步骤1’,从右往左取文本M个字,如果获得的字字串长度小于2,则返回,表明切分结束,否则转到步骤2’;步骤2’,在词典中找到则匹配成功,进行切分操作,并转到步骤1’,否则转到步骤3’;步骤3’,把字串去掉最左边一个字,如果字串长度小于2,则进行切分,转到步骤1’,否则转到步骤4’;步骤4’,进行剩余的字串是否是词的判断,若是词,进行切分操作,并转到步骤1’,否则转到步骤3’。以上任一所述的一种与基于SVM的文本分类方法相对应的装置,其特征在于,基于SVM的文本分类装置包括:文本分类模块,对文本进行切词、删词和分类处理;文本特征简化模块,由于分词后的词语数量众多,需要对特征进行简约化,以减少计算量;文本实向量表示模块,提取特征词权重,用实向量表示文本;分类器生成模块,用SVM对文本特征权重向量进行训练,得到分类器。较佳的,文本分类模块包括:文本切词单元,对文本进行切词处理;切词时同时采用正向最大匹配法和逆向最大匹配法,当这两种方法产生的分词结果一致时,可以认为没有产生切分歧义,沿用分词结果。如果用这两种方法所产生的分词结果不一致时,认为产生分词歧义,此时用分词粗分方法来尽可能提高分词准确率;文本删词单元,对文本进行删词处理,在分词结束后,根据停用词表将一些常出现在文本中的不提供任何文本信息的词先剔除;文本分类单元,对文本进行分类处理,根据规则来进行分类:一个文本所属的类别只与一些特征词在文本中出现的频率有关,与这些词出现的顺序无关。与现有技术比较本专利技术的有益效果在于:本专利技术采用了基于词典的分词方法和基于统计的分词方法相结合,提高了分词速度;利用信息熵提取特征信息,有效的降低了维度,减少了计算量;用TF-IDF提取特征词权重,有效地把原本非结构化的文本信息转化为结构化信息,有利于进一步的处理;支持向量机(SVM)具有较强的适应能力和较高的准确率,并且SVM法不受样本趋于无穷大理论的限制,对小样本的自动分类具有较高的精度。附图说明为了更清楚地说明本专利技术各实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。图1为本专利技术实施例一的一种基于SVM的文本分类方法的流程图;图2为本专利技术实施例二的步骤a的流程图;图3为本专利技术实施例三的步骤a1中正向最大匹配法的流程图;图4为本专利技术实施例三的步骤a1中逆向最大匹配法流程图;图5为本专利技术实施例八的基于SVM的文本分类装置的框架图;图6为本专利技术实施例九的文本分类模块的框架图。具体实施方式以下结合附图,对本专利技术上述的和另外的技术特征和优点作更详细的说明。实施例一图1为一种基于SVM的文本分类方法的流程图,其包括:步骤a:对文本进行切词、删词和分类处理;步骤b,由于分词后的词语数量众多,需要对特征进行简约化,以减少计算量;步骤c,提取特征词权重,用实向量表示文本;步骤d,用SVM对文本特征权重向量进行训练,得到分类器。本专利技术采用了基于词典的分词方法和基于统计的分词方法相结合,提高了分词速度;利用信息熵提取特征信息,有效的降低了维度,减少了计算量;用TF-IDF提取特征词权重,有效地把原本非结构化的文本信息转化为结构化信息,有利于进一步的处理;支持向量机(SVM)具有较强的适应能力和较高的准确率,并且SVM法不受样本趋于无穷大理论的限制,对小样本的自动分类具有较高的精度。实施例二如上所述的基于SVM的文本分类方法,本实施例与其不同之处在于,其中步骤a的流程图如图2所示,其包括:步骤a1,对文本进行切词处理;切词时同时采用正向最大匹配法和逆向最大匹配法,当这两种方法产生的分词结果一致时,可以认为没有产生切分歧义,沿用分词结果。如果用这两种方法所产生的分词结果不一致时,认为产生分词歧义,此时用分词粗分方法(CWRS方法)来尽可能提高分词准确率。步骤a2,对文本进行删词处理在分词结束后,根据停用词表将一些常出现在文本中的不提供任何文本信息的词先剔除,例如“的”、“啊”、“呀”等词,还要删除一些在全部文本中出现频率低的稀疏词。步骤a3,对文本进行分类处理根据下面的规则来进行分类:一个文本所属的类别只与一些特征词在文本中出现的频率有关,与这些词出现的顺序无关。实施例三如上所述的基于SVM的文本分类方法,本实施例与其不同之处在于,其中步骤a1中正向最大匹配法的流程图如图3所示,其包括:步骤1,从左向右获取文本M个字,如果获得的M个字字串长度小于2,则返回,表明切分结束,否则转到步骤2。步骤2,在词典中找到所述M个字,则匹配成功,进行切分操作,并转到1,否则转到步骤3。步骤3,把字串去掉最后一个字,如果字串长度小于2,则进行切分,转到步骤1,否则转到步骤4。步骤4,进行剩余的字串是否是词的判断,若是词,进行切分操作,并转到步骤1,否则转到步骤3。最大正向匹配法的思想就是从左到右将待切分词文本中的几个连续字符与词表匹配,如果匹配上,就本文档来自技高网...

【技术保护点】
1.一种基于SVM的文本分类方法,其特征在于,其包括:步骤a:对文本进行切词、删词和分类处理;步骤b,由于分词后的词语数量众多,需要对特征进行简约化,以减少计算量;步骤c,提取特征词权重,用实向量表示文本;步骤d,用SVM对文本特征权重向量进行训练,得到分类器。

【技术特征摘要】
1.一种基于SVM的文本分类方法,其特征在于,其包括:步骤a:对文本进行切词、删词和分类处理;步骤b,由于分词后的词语数量众多,需要对特征进行简约化,以减少计算量;步骤c,提取特征词权重,用实向量表示文本;步骤d,用SVM对文本特征权重向量进行训练,得到分类器。2.根据权利要求1所述的基于SVM的文本分类方法,其特征在于,所述步骤a包括:步骤a1,对文本进行切词处理;切词时同时采用正向最大匹配法和逆向最大匹配法,当这两种方法产生的分词结果一致时,可以认为没有产生切分歧义,沿用分词结果,如果用这两种方法所产生的分词结果不一致时,认为产生分词歧义,此时用分词粗分方法来尽可能提高分词准确率;步骤a2,对文本进行删词处理;在分词结束后,根据停用词表将一些常出现在文本中的不提供任何文本信息的词先剔除;步骤a3,对文本进行分类处理;根据下面的规则来进行分类:一个文本所属的类别只与一些特征词在文本中出现的频率有关,与这些词出现的顺序无关。3.根据权利要求2所述的基于SVM的文本分类方法,其特征在于,步骤a1中正向最大匹配法包括:步骤1,从左向右获取文本M个字,如果获得的M个字字串长度小于2,则返回,表明切分结束,否则转到步骤2;步骤2,在词典中找到所述M个字,则匹配成功,进行切分操作,并转到1,否则转到步骤3;步骤3,把字串去掉最后一个字,如果字串长度小于2,则进行切分,转到步骤1,否则转到步骤4;步骤4,进行剩余的字串是否是词的判断,若是词,进行切分操作,并转到步骤1,否则转到步骤3。4.根据权利要求3所述的基于SVM的文本分类方法,其特征在...

【专利技术属性】
技术研发人员:张晓亭李青海潘宇翔王平黄超杨婉
申请(专利权)人:广东精点数据科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1