文本分类方法、文本分类系统及计算机装置制造方法及图纸

技术编号:18913479 阅读:81 留言:0更新日期:2018-09-12 02:56
本发明专利技术提出了一种文本分类方法、文本分类系统、计算机装置及计算机可读存储介质,其中文本分类方法包括:建立广义特征词库;调用广义特征词库处理待分类文本;对处理后的待分类文本进行分字处理,得到分字处理结果,根据分字处理结果建立特征向量矩阵;将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果。本发明专利技术提供的文本分类方法,通过在文本中使用字符向量和广义特征词库,无需事先训练大规模语料库即可有效的在新文本中提高分类器的准确率。

Text categorization method, text classification system and computer device

The invention provides a text classification method, a text classification system, a computer device and a computer readable storage medium, wherein the text classification method includes: establishing a generalized feature lexicon; invoking the generalized feature lexicon to process the text to be classified; processing the processed text to be classified and obtaining the result of the word segmentation. According to the results of word segmentation, the eigenvector matrix is established, and the eigenvector matrix is input into the text classifier to generate the text classification model and output the classification results of the text to be classified. The text classification method provided by the invention can effectively improve the accuracy of the classifier in the new text by using character vectors and generalized feature lexicon in the text without prior training large-scale corpus.

【技术实现步骤摘要】
文本分类方法、文本分类系统及计算机装置
本专利技术涉及自然语言处理
,具体而言,涉及一种文本分类方法、文本分类系统、计算机装置及计算机可读存储介质。
技术介绍
随着文本分类方法的不断产生,文本分类的效果也变得越来越重要。目前,文本分类的准确率是文本分类器最重要的评判标准之一,而提升文本分类的准确率可以通过分字符、数据清洗、特征提取、模型建立以及训练语料等步骤实现。近年来,文本分类已经出现了很多技术,例如可以通过快速文本分类器模型和卷积神经网络模型在文本中进行分类。快速文本分类器模型本质上就是一个没有非线性的二层全连接神经网络,通过并入了分层回归模型和特征散列等技巧,能够以卷积神经网络模型几个数量级的速度处理输入文本。卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。但是,现有的快速文本分类器模型和卷积神经网络模型在文本分类的过程中仍存在一定的缺陷,它们都需要通过人工的方法去分词,需要花费大量的时间去观察数据的训练,而且准确率不高,所以利用快速文本分类器模型和卷积神经网络模型进行文本分类的计算代价高,耗时长。因此,提出一种新的文本分类方法,能够在新文本和大量文本中提高分类器准确率已经成为目前亟待解决的问题。
技术实现思路
本专利技术旨在至少解决现有技术或相关技术中存在的技术问题之一。为此,本专利技术的一个方面在于提出了一种文本分类方法。本专利技术的另一个方面在于提出了一种文本分类系统。本专利技术的再一个方面在于提出了一种计算机装置。本专利技术的又一个方面在于提出了一种计算机可读存储介质。有鉴于此,根据本专利技术的一个方面,提出了一种文本分类方法,包括:建立广义特征词库;调用广义特征词库处理待分类文本;对广义特征词库处理后的待分类文本进行分字处理,得到分字处理结果,根据分字处理结果建立特征向量矩阵;将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果。本专利技术提供的文本分类方法,首先通过建立广义特征词库能够对待分类文本进行过滤处理,进一步地,对待分类文本进行分字处理以建立特征向量矩阵,并将特征向量矩阵转化为输入向量输入到文本分类器中,以生成文本分类模型,进而得到文本分类的结果。本专利技术无需事先训练大规模语料库就可以有效的在新文本中提高分类器的准确率,通过将字符向量和广义特征词库应用到文本的分类方法中,不仅能够得到文本分类模型,还能够得到文本分类结果。根据本专利技术的上述文本分类方法,还可以具有以下技术特征:在上述技术方案中,优选地,建立广义特征词库的步骤,具体包括:获取语料,清除语料中的同质化数据;对清除同质化数据后的语料进行分类,采用TopN算法对分类后的语料中的数据进行排序,提取排序后的语料中的前N个数据,并将前N个数据存储在文档中,对文档进行处理,以建立广义特征词库。在该技术方案中,首先从百度百科、维基百科库中获取大量文本数据作为语料,进一步地,采用预设的规则方法清除语料中的同质化数据,并对语料进行分类,进一步地,预设N值,通过TopN算法对语料中的数据进行排序,提取排序后的语料中的前N个数据存入文档中,对文档进行打包、编写代码和封装处理,进而生成广义特征词库。本专利技术提供的广义特征词库是能够处理非局限性文本数据的特征词库,能够对各类文本数据进行处理,并过滤掉一些常规非具体词语,所以使用广义特征词库对待测文本进行处理能够加快对待分类文本进行分类的速度。在上述任一技术方案中,优选地,调用广义特征词库处理待分类文本的步骤,具体包括:对待分类文本进行预处理,并调用广义特征词库对预处理后的待分类文本进行正则匹配,生成新待分类文本,并得到新待分类文本的多分类标签。在该技术方案中,首先对待分类文本进行预处理,即包括去除敏感词、乱码、标点符号等处理,用来去除待分类文本中的冗余部分,进一步地,通过广义特征词库对待分类文本再进行正则匹配,能够实现对待分类文本的进一步过滤,以得到待分类文本的多分类标签和新待分类文本,为文本分类模型的建立提供保障。在上述任一技术方案中,优选地,对广义特征词库处理后的待分类文本进行分字处理,得到分字处理结果,根据分字处理结果建立特征向量矩阵的步骤,具体包括:使用分词工具对新待分类文本进行分词,得到文本词集;对文本词集进行分字处理,形成字符,通过TF-IDF算法将字符转换成特征向量矩阵。在该技术方案中,可以使用结巴分词方法对新待分类文本进行分词,具体地,对新待分类文本中的句子进行全切分,生成一个邻接链表表示的词图,即文本词集;进一步地,对文本词集以空格为停止符一一分割,即在文本词集的词语中间加入空格,形成字符;再进一步地,将形成的字符转换为特征向量矩阵,具体地,建立TF-IDF结构(termfrequency-inversedocumentfrequency,信息检索数据挖掘的常用加权技术),读取新待分类文本中每一行的字符,并计算出每一个字符出现的频数,通过字符的频数建立特征向量矩阵。在上述任一技术方案中,优选地,将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果的步骤,具体包括:将特征向量矩阵转换为文本分类器的一个输入向量,并将多分类标签转换为文本分类器的另一个输入向量,通过调用文本分类器训练算法,生成文本分类模型,并输出待分类文本的分类结果;其中,文本分类器为SVM分类器,分类结果为待分类文本分类的准确率和TopN排序。在该技术方案中,把特征向量矩阵转换为向量x,把多分类标签转换为向量y,通过调用SVM分类器(SupportVectorMachine,支持向量机)中的模式识别与回归软件包和svm_train(y,x)训练算法,将向量x,y作为输入向量输入到SVM分类器中,进而生成文本分类模型,并得到待分类文本分类的准确率和TopN排序列表。通过使用SVM分类器无需再使用数字优化算法,也无需进行矩阵的存储,提升了文本分类的效率。在上述任一技术方案中,优选地,在将特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出待分类文本的分类结果的步骤之后,还包括:调整文本分类模型中的参数,并调用核函数对文本分类模型进行训练,以实现对文本分类模型的优化。在该技术方案中,在线性不可分的情况下,SVM分类器进行文本分类会出现一些问题,因而通过调用核函数可以训练文本分类模型,并通过调整文本分类模型中的参数,能够实现对文本分类模型的优化,具体地,SVM首先在低维空间中完成计算,然后通过调用核函数将输入空间映射到高维特征空间,最终在高维特征空间中构造出最优分离超平面,从而把平面上本身不好分的非线性数据分开,无需知道映射的表达式,不增加计算复杂度,也可以避免“维数灾难”。通过调用核函数能够有效地对各类文本数据进行分类,并能够进一步提升文本文类的准确率。其中,核函数使用线性核函数效果更佳。根据本专利技术的另一个方面,提出了一种文本分类系统,包括:第一建立单元,用于建立广义特征词库;处理单元,用于调用广义特征词库处理待分类文本;第二建立单元,用于对广义特征词库处理后的待分类文本进行分字处理,得到分字处理结果,根据分字处理结果建立特征向量矩阵;输出单元,用于将特征向量本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,包括:建立广义特征词库;调用所述广义特征词库处理待分类文本;对所述广义特征词库处理后的待分类文本进行分字处理,得到分字处理结果,根据所述分字处理结果建立特征向量矩阵;将所述特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出所述待分类文本的分类结果。

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:建立广义特征词库;调用所述广义特征词库处理待分类文本;对所述广义特征词库处理后的待分类文本进行分字处理,得到分字处理结果,根据所述分字处理结果建立特征向量矩阵;将所述特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出所述待分类文本的分类结果。2.根据权利要求1所述的文本分类方法,其特征在于,所述建立广义特征词库的步骤,具体包括:获取语料,清除所述语料中的同质化数据;对清除同质化数据后的所述语料进行分类,采用TopN算法对分类后的所述语料中的数据进行排序,提取排序后的所述语料中的前N个数据,并将所述前N个数据存储在文档中,对所述文档进行处理,以建立所述广义特征词库。3.根据权利要求1或2所述的文本分类方法,其特征在于,所述调用所述广义特征词库处理待分类文本的步骤,具体包括:对所述待分类文本进行预处理,并调用所述广义特征词库对预处理后的所述待分类文本进行正则匹配,生成新待分类文本,并得到所述新待分类文本的多分类标签。4.根据权利要求3所述的文本分类方法,其特征在于,所述对所述广义特征词库处理后的待分类文本进行分字处理,得到分字处理结果,根据所述分字处理结果建立特征向量矩阵的步骤,具体包括:使用分词工具对所述新待分类文本进行分词,得到文本词集;对所述文本词集进行分字处理,形成字符,通过TF-IDF算法将所述字符转换成所述特征向量矩阵。5.根据权利要求4所述的文本分类方法,其特征在于,所述将所述特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出所述待分类文本的分类结果的步骤,具体包括:将所述特征向量矩阵转换为所述文本分类器的一个输入向量,并将所述多分类标签转换为所述文本分类器的另一个输入向量,通过调用文本分类器训练算法,生成所述文本分类模型,并输出所述待分类文本的分类结果;其中,所述文本分类器为SVM分类器,所述分类结果为所述待分类文本分类的准确率和TopN排序。6.根据权利要求1所述的文本分类方法,其特征在于,在所述将所述特征向量矩阵输入到文本分类器中,生成文本分类模型,并输出所述待分类文本的分类结果的步骤之后,还包括:调整所述文本分类模型中的参数,并调用核函数对所述文本分类模型进行训练,以实现对所述文本分类模型的优化。7.一种文本分类系统,其特征在于,包括:第一建立单...

【专利技术属性】
技术研发人员:欧阳一村程源泉蒋铮杨吉雄
申请(专利权)人:深圳中兴网信科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1