当前位置: 首页 > 专利查询>深圳大学专利>正文

一种计算机文本分类系统技术方案

技术编号:15189696 阅读:65 留言:0更新日期:2017-04-19 19:35
本发明专利技术公开了一种计算机文本分类系统,包括文本预处理模块、文本特征提取模块、文本训练处理模块、分类处理模块、文本种类标记模块以及效果完善模块。本发明专利技术以信息论为基础,对分类的过程进一步细化,明确了分类系统中各个模决的功能,确保分类的效率以及分类处理率,加入了效果完善模块,提高分类处理的正确率。

【技术实现步骤摘要】

本专利技术涉及一种人工智能领域,涉及一种文本分类系统。
技术介绍
文本分类作为信息过滤、信息检索、文本数据库、数字化图书馆和邮件分类等领域的技术基础,有着广泛的应用前景。网络的发展与普及,大大方便了我们获取信息。然而大量信息给人们对信息的处理带来的很多困难,无法快速地得到所需的信息,同时还会带来一些反面信息。信息过滤技术可以用来解决这些问题,信息过滤的本质是一个分类问题,既可以用来将用户反感的信息滤掉,也可以用来将用户感兴趣的信息过滤出来。现有的文本分类系统处理的效率过低,分类的效果不佳,错误率过高。本专利技术的主要目的是提供一种高效率、分类处理率高、正确率高的文本分类系统。
技术实现思路
有鉴于此,本专利技术要解决的技术问题是提供一种文本检索分类特征选择方法,用于解决上述提出的无法解决的问题。为达到上述技术方案的效果,本专利技术的技术方案为:一种计算机文本分类系统,包括文本预处理模块、文本特征提取模块、文本训练处理模块、分类处理模块、文本种类标记模块以及效果完善模块;文本预处理模块主要对文本进行预处理,首先对输入的文本利用分词软件将文本断开,将标点符号、空格去除,分割成词语集合,接着对词语集合进行进一步的处理,将无意义的词语去除,形成精简词语集合;文本特征提取模块的主要根据是特征选择方法,首先从精简词语集合中产生出特征词语子集,产生特征词语子集的过程是不停搜索的过程,搜索的算法采用分支限界搜索算法,然后用基于遗传算法的评价函数对产生的特征词语子集进行评价,得到评价值,并将评价值与停止的阈值进行比较,若评价值比停止的阈值大则停止搜索,否则就继续搜索,经过评价能过滤产生新的特征词语子集,利用互信息法计算特征词语出现的频率,综合特征词语出现的频率,得到特征词语与频率之间的映射表;文本训练处理模块对特征词语与频率之间的映射表进行处理,随机选取其他文本,计算逆文档指数,将逆文档指数作为输入,依靠训练分类器计算特征词语的权重值,从而得到词语权重矩阵;分类处理模块根据所述词语权重矩阵,利用SVM分类算法设置分类的类别区间,将词语进行分类,得到词语分类向量集合,一个类别的词语属于词语分类向量集合中的同一个向量;文本种类标记模块用于对所述词语分类向量集合进行标记,建立词语的类别标记表,词语的类别标记表中用特殊的符号值作为词语类别的标记值,将标记值加入词语分类向量集合得到标记过的词语分类向量集合;效果完善模块对标记过的词语分类向量集合进行错误统计,统计的过程为一个随机样本抽取过程,根据词语的分布律进行排序,排序在前30%的区域为重点抽取的区域,对抽取的样本的分类效果进行测试,利用冗余参数进行调整,若调整的频率过高,说明分类的效果不够好,重回文本特征提取模块,对阈值进行修改重新进行特征提取直到将调整的频率降到安全的范围内。附图说明图1为一种文本分类系统的结构图。具体实施方式为了使本专利技术所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本专利技术进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术,能实现同样功能的产品属于等同替换和改进,均包含在本专利技术的保护范围之内。具体方法如下:实施例一:文本分类常用的方法为特征选择。这类特征具有较强的类别区分能力,会集中出现在某一类或某几类中。因此,当一些词语出现在文本中时,能具有很大把握确定这些文本是属于哪一类或哪几类。不同的特征对文本的类别有不同的表达能力,显然特征选择就是要选择出对文本的类别有较强表达能力的特征。这种能力称之为文本类别区分度,也即是特征区分类别的能力。特征的文本类别区分度就是特征中包含类别信息量的大小。包含的文本类别信息量大,其文本类别区分度就大;反之,其文本类别区分度就小。直观上说,是通过一个特征在文档中出现与否,来判定该文档的类别属性的能力。具体地,如果一个特征在文档中出现与否对判定该文档的类别没有丝毫影响,那么该特征对文本分类没有意义,那么该特征的区分类别能力很小,特征选择对其的评价值应该是很小的。特征的文本类别区分度越大,特征携带的类别信息量就越多,那么是否某个特征有大的类别区分度就是对分类很有用的特征。例如一个特征词只出现在医药类别中,其类别区分度达到最大。然而,该特征为稀有词,极少出现在文本中。如果把这类词语选择为特征,那么该特征在其它文本中根本不出现,即所有文本的特征向量在该维度上均为零。这也就导致了文本分类中经常遇到的矩阵稀疏的问题,从而产生过拟合现象,这种现象产生的原因为过分依赖于训练集。因此,进行文本的特征选择时,应该尽量选择高频词,即考虑特征的一般性,这称之为特征的泛化能力。显然地,文本类别区分度大的且泛化能力强的特征是对分类最为有用的特征,而区分度小、泛化能力弱的特征则是最无用的特征。类别区分度大而泛化能力弱的特征在高维的时比较有用,因为有足够的特征来避免数据稀疏问题以保证召回率,而有更好的区分性的特征有助于提高分类的准确率。类别区分度小且泛化能力强的特征在低维的时候比较有用,因为在数据稀疏的情况下,虽然特征区分类别的能力不强。实施例二:寻找冗余参数值,能优化其文本分类效果。对于整个文本分类系统,该算法考虑不同的冗余参数值,用训练集估计每个冗余参数值的分类效果指标。通过使用交叉验证,得到评价指标的均值和方差的估计值,并在两个系统统计显著性。最佳的冗余参数值就是相对于在A=0(即信息增益特征选择)时得到最高的统计显著性。对于每一个冗余参数,使用训练集对文本分类系统进行交叉验证。将训练集随机地平均分成若干份,选择一份用做验证测试集,其余用做验证训练集。用验证训练集对特征选择和分类算法组成的系统进行训练,再用验证测试集得到文本分类效果,计算评价指标。按照比例将验证集切分成训练集和测试集循环进行重复实验。例如:做四路交叉验证,将训练集平分成四份。第一次,验证训练集使用1,2和3标号子集,第4标号子集作为验证测试集,下一次实验,使用1,2和4标号作为训练集,第3标号作为测试集。针对不同的冗余参数值,对实验效果指标的均值和方差进行检验。从本文的实验来看,使用四路交叉验证已经足够。使用更多的交叉验证并不能明显增强效,更多的交叉验证虽然能对均值和方差有更好的估计,但同时也增加了训练时间的消耗。考虑两个冗余参数,分别对其进行交叉验证,各自得到一组效果指标数据。定义显著统计检验为使用一个冗余参数比使用另一个冗余参数有更好的效果。算法从初始值开始,测试不同的冗余参数直到发现一个最佳值。当某个冗余参数值的统计显著最高时,则认为它是一个最佳值。从信息理论的角度定义了特征选择的过程就是从候选特征集中选择出与类别标签的互信息最大的特征子集的过程。在此基础上,比较了四种互信息特征选择方法的近似算法。由于除信息增益外,所有文本分类算法都需要冗余参数,因此需要一种包装式搜索冗余参数最佳值的算法。从比较结果来看,对于使用冗余参数使用固定值0.4,在各种情况下均有不同程度的提高,在某些情况下改善较为明显。由此也进一步证实了冗余参数与选取的特征数和使用的分类算法是相关的。实施例三:根据以前的文本分类算法评价实验,以Rochcio、KNN和SVM特点最为突出,其中KNN、SvM方法的分类正确率较高,Rochcio方法的时间复杂度和本文档来自技高网...

【技术保护点】
一种计算机文本分类系统,其特征在于,包括文本预处理模块、文本特征提取模块、文本训练处理模块、分类处理模块、文本种类标记模块以及效果完善模块;计算机中的计算部分首先对所述文本预处理模块主要对输入的文本进行预处理,首先对所述输入的文本利用分词软件将文本断开,将标点符号、空格去除,分割成词语集合,接着对所述词语集合进行进一步的处理,将无意义的词语去除,形成精简词语集合;所述文本特征提取模块的主要根据是特征选择方法,首先从所述精简词语集合中产生出特征词语子集,产生所述特征词语子集的过程是不停搜索的过程,搜索的算法采用分支限界搜索算法,然后用基于遗传算法的评价函数对产生的所述特征词语子集进行评价,得到评价值,并将所述评价值与停止的阈值进行比较,若所述评价值比所述停止的阈值大则停止搜索,否则就继续搜索,经过评价能过滤产生新的特征词语子集,所述新的特征词语子集由特征词语组成,利用互信息法计算所述特征词语出现的频率,综合所述特征词语出现的频率,得到所述特征词语与所述特征词语出现的频率之间的映射表;所述文本训练处理模块对所述特征词语与所述特征词语出现的频率之间的映射表进行处理,随机选取其他文本,计算逆文本频率指数,将计算后的逆文本频率指数作为输入,依靠训练分类器计算所述特征词语的权重值,从而得到词语权重矩阵;所述分类处理模块根据所述词语权重矩阵,利用SVM分类算法设置分类的类别区间,将所述精简词语集合中的词语进行分类,得到词语分类向量集合,一个类别的词语属于所述词语分类向量集合中的同一个向量;所述文本种类标记模块用于对所述词语分类向量集合进行标记,建立词语的类别标记表,所述词语的类别标记表中用特殊的符号值作为词语类别的标记值,将所述词语类别的标记值加入词语分类向量集合得到标记过的词语分类向量集合;所述效果完善模块对所述标记过的词语分类向量集合进行错误统计,统计的过程为一个随机的样本抽取过程,首先将所述标记过的词语分类向量集合中的标记过的词语分类向量提取,并根据词语的分布律进行排序,排序在前30%的区域为重点抽取的区域,对抽取的样本的分类效果进行测试,并且利用冗余参数进行调整,若调整的频率过高,说明分类的效果不够好,重新回到所述文本特征提取模块,对所述阈值进行修改重新进行特征提取直到将所述调整的频率降到安全的范围内。...

【技术特征摘要】
1.一种计算机文本分类系统,其特征在于,包括文本预处理模块、文本特征提取模块、文本训练处理模块、分类处理模块、文本种类标记模块以及效果完善模块;计算机中的计算部分首先对所述文本预处理模块主要对输入的文本进行预处理,首先对所述输入的文本利用分词软件将文本断开,将标点符号、空格去除,分割成词语集合,接着对所述词语集合进行进一步的处理,将无意义的词语去除,形成精简词语集合;所述文本特征提取模块的主要根据是特征选择方法,首先从所述精简词语集合中产生出特征词语子集,产生所述特征词语子集的过程是不停搜索的过程,搜索的算法采用分支限界搜索算法,然后用基于遗传算法的评价函数对产生的所述特征词语子集进行评价,得到评价值,并将所述评价值与停止的阈值进行比较,若所述评价值比所述停止的阈值大则停止搜索,否则就继续搜索,经过评价能过滤产生新的特征词语子集,所述新的特征词语子集由特征词语组成,利用互信息法计算所述特征词语出现的频率,综合所述特征词语出现的频率,得到所述特征词语与所述特征词语出现的频率之间的映射表;所述文本训练处理模块对所述特征词语与所述特征词语出现的频率之间的映射...

【专利技术属性】
技术研发人员:何正娣
申请(专利权)人:深圳大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1