文本分类方法、文本分类系统及计算机装置制造方法及图纸

技术编号：18913479 阅读：81 留言：0更新日期：2018-09-12 02:56

本发明专利技术提出了一种文本分类方法、文本分类系统、计算机装置及计算机可读存储介质，其中文本分类方法包括：建立广义特征词库；调用广义特征词库处理待分类文本；对处理后的待分类文本进行分字处理，得到分字处理结果，根据分字处理结果建立特征向量矩阵；将特征向量矩阵输入到文本分类器中，生成文本分类模型，并输出待分类文本的分类结果。本发明专利技术提供的文本分类方法，通过在文本中使用字符向量和广义特征词库，无需事先训练大规模语料库即可有效的在新文本中提高分类器的准确率。

Text categorization method, text classification system and computer device

The invention provides a text classification method, a text classification system, a computer device and a computer readable storage medium, wherein the text classification method includes: establishing a generalized feature lexicon; invoking the generalized feature lexicon to process the text to be classified; processing the processed text to be classified and obtaining the result of the word segmentation. According to the results of word segmentation, the eigenvector matrix is established, and the eigenvector matrix is input into the text classifier to generate the text classification model and output the classification results of the text to be classified. The text classification method provided by the invention can effectively improve the accuracy of the classifier in the new text by using character vectors and generalized feature lexicon in the text without prior training large-scale corpus.

全部详细技术资料下载

【技术实现步骤摘要】
文本分类方法、文本分类系统及计算机装置
本专利技术涉及自然语言处理
，具体而言，涉及一种文本分类方法、文本分类系统、计算机装置及计算机可读存储介质。
技术介绍
随着文本分类方法的不断产生，文本分类的效果也变得越来越重要。目前，文本分类的准确率是文本分类器最重要的评判标准之一，而提升文本分类的准确率可以通过分字符、数据清洗、特征提取、模型建立以及训练语料等步骤实现。近年来，文本分类已经出现了很多技术，例如可以通过快速文本分类器模型和卷积神经网络模型在文本中进行分类。快速文本分类器模型本质上就是一个没有非线性的二层全连接神经网络，通过并入了分层回归模型和特征散列等技巧，能够以卷积神经网络模型几个数量级的速度处理输入文本。卷积神经网络(ConvolutionalNeuralNetwork，CNN)是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。但是，现有的快速文本分类器模型和卷积神经网络模型在文本分类的过程中仍存在一定的缺陷，它们都需要通过人工的方法去分词，需要花费大量的时间去观察数据的训练，而且准确率不高，所以利用快速文本分类器模型和卷积神经网络模型进行文本分类的计算代价高，耗时长。因此，提出一种新的文本分类方法，能够在新文本和大量文本中提高分类器准确率已经成为目前亟待解决的问题。
技术实现思路
本专利技术旨在至少解决现有技术或相关技术中存在的技术问题之一。为此，本专利技术的一个方面在于提出了一种文本分类方法。本专利技术的另一个方面在于提出了一种文本分类系统。本专利技术的再一个方面在于提出了一种计算机装置。本...

【技术保护点】
1.一种文本分类方法，其特征在于，包括：建立广义特征词库；调用所述广义特征词库处理待分类文本；对所述广义特征词库处理后的待分类文本进行分字处理，得到分字处理结果，根据所述分字处理结果建立特征向量矩阵；将所述特征向量矩阵输入到文本分类器中，生成文本分类模型，并输出所述待分类文本的分类结果。

【技术特征摘要】
1.一种文本分类方法，其特征在于，包括：建立广义特征词库；调用所述广义特征词库处理待分类文本；对所述广义特征词库处理后的待分类文本进行分字处理，得到分字处理结果，根据所述分字处理结果建立特征向量矩阵；将所述特征向量矩阵输入到文本分类器中，生成文本分类模型，并输出所述待分类文本的分类结果。2.根据权利要求1所述的文本分类方法，其特征在于，所述建立广义特征词库的步骤，具体包括：获取语料，清除所述语料中的同质化数据；对清除同质化数据后的所述语料进行分类，采用TopN算法对分类后的所述语料中的数据进行排序，提取排序后的所述语料中的前N个数据，并将所述前N个数据存储在文档中，对所述文档进行处理，以建立所述广义特征词库。3.根据权利要求1或2所述的文本分类方法，其特征在于，所述调用所述广义特征词库处理待分类文本的步骤，具体包括：对所述待分类文本进行预处理，并调用所述广义特征词库对预处理后的所述待分类文本进行正则匹配，生成新待分类文本，并得到所述新待分类文本的多分类标签。4.根据权利要求3所述的文本分类方法，其特征在于，所述对所述广义特征词库处理后的待分类文本进行分字处理，得到分字处理结果，根据所述分字处理结果建立特征向量矩阵的步骤，具体包括：使用分词工具对所述新待分类文本进行分词，得到文本词集；对所述文本词集进行分字处理，形成字符，通过TF-IDF算法将所述字符转换成所述特征向量矩阵。5.根据权利要求4所述的文本分类方法，其特征在于，所述将所述特征向量矩阵输入到文本分类器中，生成文本分类模型，并输出所述待分类文本的分类结果的步骤，具体包括：将所述特征向量矩阵转换为所述文本分类器的一个输入向量，并将所述多分类标签转换为所述文本分类器的另一个输入向量，通过调用文本分类器训练算法，生成所述文本分类模型，并输出所述待分类文本的分类结果；其中，所述文本分类器为SVM分类器，所述分类结果为所述待分类文本分类的准确率和TopN排序。6.根据权利要求1所述的文本分类方法，其特征在于，在所述将所述特征向量矩阵输入到文本分类器中，生成文本分类模型，并输出所述待分类文本的分类结果的步骤之后，还包括：调整所述文本分类模型中的参数，并调用核函数对所述文本分类模型进行训练，以实现对所述文本分类模型的优化。7.一种文本分类系统，其特征在于，包括：第一建立单...

【专利技术属性】
技术研发人员：欧阳一村，程源泉，蒋铮，杨吉雄，
申请(专利权)人：深圳中兴网信科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人