The present invention discloses a text classification method based on SVM, which includes: step a: word segmentation, deletion and classification of text; step B, because the number of words after the word segmentation is large, we need to simplify the feature to reduce the amount of computation; step C, extract the weight of the feature words, express the text with the real vector; step D, SVM is used to train the weight vector of text feature to get the classifier, and a device corresponding to the SVM based text classification method described above is also disclosed. The device includes text classification module, text feature simplification module, Wen Benshi vector representation module and classifier generating module. In this way, the invention adopts a dictionary based and statistical based word segmentation method to improve the speed of word segmentation, using information entropy to extract feature information, effectively reducing the dimension and reducing the amount of calculation; using TF IDF to extract the weight of feature words and transform the original unstructured text information into structured information, which is beneficial to further processing. .
【技术实现步骤摘要】
一种基于SVM的文本分类方法及装置
本专利技术属于信息检索、信息抽取领域,具体涉及一种基于SVM的文本分类方法及装置。
技术介绍
20世纪90年代,随着网上在线文本的大量涌现和机器学习的兴起,大规模的文本(包括网页)分类和检索又重新引起学者兴趣。文本分类系统首先通过在预先分类好的文本集上训练,建立一个判别规则或分类器,从而对未知类别的新样本进行自动归类。大量的结果表明它的分类精度比得上专家手工分类的结果,并且它的学习不需要专家干预,能适用于任何领域的学习,使得它成为目前文本分类的主流方法。1995年Vapnik提出了基于统计学习理论提出了支持向量机(SVM),思想就是寻求一个最优分类超平面,用支持向量机做分类具有分类精度较高等优点。鉴于上述优点,本专利技术创作者经过长时间的研究和实践终于获得了本专利技术。
技术实现思路
为解决上述技术需求,本专利技术采用的技术方案在于,提供一种基于SVM的文本分类方法,其包括:步骤a:对文本进行切词、删词和分类处理;步骤b,由于分词后的词语数量众多,需要对特征进行简约化,以减少计算量;步骤c,提取特征词权重,用实向量表示文本;步骤d,用SVM对文本特征权重向量进行训练,得到分类器。较佳的,所述步骤a包括:步骤a1,对文本进行切词处理;切词时同时采用正向最大匹配法和逆向最大匹配法,当这两种方法产生的分词结果一致时,可以认为没有产生切分歧义,沿用分词结果,如果用这两种方法所产生的分词结果不一致时,认为产生分词歧义,此时用分词粗分方法来尽可能提高分词准确率;步骤a2,对文本进行删词处理;在分词结束后,根据停用词表将一些常出现在文本中 ...
【技术保护点】
1.一种基于SVM的文本分类方法,其特征在于,其包括:步骤a:对文本进行切词、删词和分类处理;步骤b,由于分词后的词语数量众多,需要对特征进行简约化,以减少计算量;步骤c,提取特征词权重,用实向量表示文本;步骤d,用SVM对文本特征权重向量进行训练,得到分类器。
【技术特征摘要】
1.一种基于SVM的文本分类方法,其特征在于,其包括:步骤a:对文本进行切词、删词和分类处理;步骤b,由于分词后的词语数量众多,需要对特征进行简约化,以减少计算量;步骤c,提取特征词权重,用实向量表示文本;步骤d,用SVM对文本特征权重向量进行训练,得到分类器。2.根据权利要求1所述的基于SVM的文本分类方法,其特征在于,所述步骤a包括:步骤a1,对文本进行切词处理;切词时同时采用正向最大匹配法和逆向最大匹配法,当这两种方法产生的分词结果一致时,可以认为没有产生切分歧义,沿用分词结果,如果用这两种方法所产生的分词结果不一致时,认为产生分词歧义,此时用分词粗分方法来尽可能提高分词准确率;步骤a2,对文本进行删词处理;在分词结束后,根据停用词表将一些常出现在文本中的不提供任何文本信息的词先剔除;步骤a3,对文本进行分类处理;根据下面的规则来进行分类:一个文本所属的类别只与一些特征词在文本中出现的频率有关,与这些词出现的顺序无关。3.根据权利要求2所述的基于SVM的文本分类方法,其特征在于,步骤a1中正向最大匹配法包括:步骤1,从左向右获取文本M个字,如果获得的M个字字串长度小于2,则返回,表明切分结束,否则转到步骤2;步骤2,在词典中找到所述M个字,则匹配成功,进行切分操作,并转到1,否则转到步骤3;步骤3,把字串去掉最后一个字,如果字串长度小于2,则进行切分,转到步骤1,否则转到步骤4;步骤4,进行剩余的字串是否是词的判断,若是词,进行切分操作,并转到步骤1,否则转到步骤3。4.根据权利要求3所述的基于SVM的文本分类方法,其特征在...
【专利技术属性】
技术研发人员:张晓亭,李青海,潘宇翔,王平,黄超,杨婉,
申请(专利权)人:广东精点数据科技股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。