一种计算机文本分类体系制造技术

技术编号:14820449 阅读:93 留言:0更新日期:2017-03-15 13:11
本发明专利技术涉及一种计算机文本分类系统,其包括文本预处理模块、文本的形式化模块,文本权值计算模块、模型训练模块、噪声降低模块;本发明专利技术的有益效果是,本发明专利技术能有效地减少计算机文本分类的时间和空间复杂度,从而使得计算机文本分类更加快速、有效和准确。

【技术实现步骤摘要】

本专利技术涉及一种计算机文本分类体系、系统及其文本分类方法。
技术介绍
随着信息技术的迅猛发展,特别是Internet的普及,计算机文本呈爆炸性趋势增长,人们迫切需要一种体系高效地组织和管理文本信息。文本分类作为组织和处理大量文本信息的关键技术,可以在较大程度上解决信息杂乱的问题,对于信息的高效管理和有效利用都具有极其现实的意义,成为了数据挖掘领域中的一个重要的研究方向。目前,文本分类体系已经在多个领域得到了广泛的应用,并且取得了较大的进展。但是,文本分类也遇到了前所未有的挑战。文本中还存在大量近义词,造成文本特征项冗余,客观上使得文本空间极为稀疏,从而给文本分类造成了很大的困难。这就需要采用比较合理的计算机文本分类体系来改善这个问题。
技术实现思路
本专利技术的目的是提供一种计算机文本分类体系,以解决文本空间表示系数、文本特征项冗余严重等技术问题。为了解决上述技术问题,本专利技术提供了一种计算机文本分类体系,包含文本预处理模块、文本的形式化模块,文本权值计算模块、模型训练模块、噪声降低模块。进一步,文本预处理模块适于将输入文本中的标点符号、空格去除,对输入文本的语法错误进行纠正,分割成词语集合,以及对词语集合进行停用词去除,停用词去除被分为两步:第一步,对词语集合进行分类,将词语集合分为通用输入词语集合以及专业输入词语集合;第二步,对通用输入词语集合采取利用固定的停用词列表进行分析过滤,将通用输入词语集合转换成去除停用词的通用输入词语集合,对专业输入词语集合采用相对熵来度量其包含的信息量,根据信息量的多少对专业输入词语集合进行降序排序,将排序在后2%的专业输入词语集合中的词语去除,构成去除停用词的专业输入词语集合,将去除停用词的所述通用输入词语集合以及所述去除停用词的所述专业输入词语集合结合;即形成精简词语集合。进一步,文本的形式化模块适于将精简词语集合转换成计算机能识别的形式化模型,首先根据输入文本的词语出现的顺序将精简词语集合表示词语有序序列,并且将词语有序序列表示成状态变迁系统,状态变迁系统是由状态以及状态之间的变迁关系组成的一种计算机能识别的形式化模型,词语有序序列的词语映射为状态变迁系统的状态,词语有序序列中相邻的词语映射为状态变迁系统的状态之间的变迁关系。进一步,文本权值计算模块适于对状态变迁系统进行处理转换成状态标签变迁系统,状态标签变迁系统由状态变迁系统以及状态变迁系统中的状态上的标签组成;即计算词语有序序列中的词语在输入文本中的分布律,并计算输入文本的长度,计算两者的比值,作为局部系数,计算词语有序序列中的词语的信息增益,作为全局系数,将局部系数乘以全局系数得到词语有序序列中的词语的权重,将词语有序序列中的词语的权重作为状态变迁系统中的状态上的标签,从而得到状态标签变迁系统。进一步,模型训练模块适于根据词语有序序列中的词语的权重将状态变迁系统的状态进行进一步地升序排序,形成词语权重序列,对词语权重序列扩展维数,加入具有变迁关系的状态,构成词语向量空间模型,并且根据支持向量机分类器对词语向量空间模型进行处理并进行降维,得到词语类别的序列集合;即词语类别的序列集合由词语组成的序列组成,一个类别的词语属于一个序列,并且一个序列中的词语按词语的权重的降序排序。进一步,噪声降低模块对词语类别的序列集合进行清除噪声数据,并且确保不改变词语类别的序列集合的结构;即清除噪声数据的步骤为首先将词语类别的序列集合进行初始化,并且结合状态变迁系统的状态之间的变迁关系,得到近邻列表,共享输入文本中的分布律,计算近邻列表的频度,根据近邻列表的频度计算阈值,将权重低于阈值的词语类别的序列集合中的词语去除。本专利技术的有益效果是,本专利技术有效地减少计算机文本分类的时间和空间复杂度,从而使得计算机文本分类更加快速、有效和准确。第二方面,本专利技术还提供了一种计算机文本分类系统及其文本分类方法,以解决传统计算机分类效率低,分类处理率低,正确率不理想的技术问题。为了解决上述技术问题,本专利技术提供了一种计算机文本分类系统,包括:依次相连的文本预处理模块、文本特征提取模块、文本训练处理模块、分类处理模块、文本种类标记模块以及效果完善模块。进一步,所述文本预处理模块适于将输入文本中的标点符号、空格去除,分割成词语集合,以及去除无意义的词语;即形成精简词语集合。进一步,所述文本特征提取模块适于从精简词语集合中产生出特征词语子集,并获取特征词语与该特征词语出现的频率之间的映射表。进一步,所述文本训练处理模块适于对映射表进行处理;即随机选取其他文本,计算逆文本频率指数,将计算后的逆文本频率指数作为输入,依靠训练分类器计算所述特征词语的权重值,从而得到词语权重矩阵。进一步,所述分类处理模块适于根据词语权重矩阵,且利用SVM分类算法设置分类的类别区间,将所述精简词语集合中的词语进行分类,得到词语分类向量集合,即一个类别的词语属于所述词语分类向量集合中的同一个向量。进一步,所述文本种类标记模块用于对词语分类向量集合进行标记,建立词语的类别标记表,该类别标记表中用特殊的符号值作为词语类别的标记值,并将该标记值加入词语分类向量集合,以得到标记过的词语分类向量集合。进一步,所述效果完善模块适于对标记过的词语分类向量集合进行错误统计,以提高分类处理的正确率。第三方面,为了解决同样的技术问题,本专利技术还提供了一种计算机文本分类方法,包括:步骤S1,文本预处理;步骤S2,文本特征提取;步骤S3,文本训练;步骤S4,分类处理;步骤S5,文本种类标记;以及步骤S6,效果完善。进一步,所述步骤S1中文本预处理的方法包括:步骤S11,对输入文本进行预处理,即去除输入文本中的标点符号、空格,分割成词语集合;步骤S12,将无意义的词语去除;以及步骤S13,形成精简词语集合;步骤S2中文本特征提取,即从精简词语集合中产生出特征词语子集,并获取特征词语与该特征词语出现的频率之间的映射表,其方法包括:步骤S21,通过分支限界搜索算法搜索以产生特征词语初子集;步骤S22,用基于遗传算法的评价函数对产生的特征词语初子集进行评价,得到评价值,并将所述评价值与停止的阈值进行比较,若所述评价值大于停止的阈值,则停止搜索,否则就继续搜索,经过评价能过滤产生新的特征词语子集;步骤S23,利用互信息法计算特征词语出现的频率,综合特征词语出现的频率,以得到所述特征词语与特征词语出现的频率之间的映射表;所述步骤S3中文本训练的方法包括:随机选取其他文本,计算逆文本频率指数,将计算后的逆文本频率指数作为输入,依靠训练分类器计算所述特征词语的权重值,从而得到词语权重矩阵;所述步骤S4中分类处理的方法包括:根据所述词语权重矩阵,利用SVM分类算法设置分类的类别区间,将精简词语集合中的词语进行分类,得到词语分类向量集合;即一个类别的词语属于所述词语分类向量集合中的同一个向量;所述步骤S5中文本种类标记的方法包括:对所述词语分类向量集合进行标记,建立词语的类别标记表,词语的类别标记表中用特殊的符号值作为词语类别的标记值,将该标记值加入词语分类向量集合得到标记过的词语分类向量集合;所述步骤S6中效果完善的方法,即对标记过的词语分类向量集合进行错误统计,且统计的过程为一个随机的样本抽取过程,其方法包括:将所述标本文档来自技高网...
一种计算机文本分类体系

【技术保护点】
一种计算机文本分类体系,其特征在于,包括:文本预处理模块、文本的形式化模块,文本权值计算模块、模型训练模块、噪声降低模块;所述文本预处理模块适于将输入文本中的标点符号、空格去除,对所述输入文本的语法错误进行纠正,分割成词语集合,以及对所述词语集合进行停用词去除,所述停用词去除被分为两步:第一步,对所述词语集合进行分类,将所述词语集合分为通用输入词语集合以及专业输入词语集合;第二步,对所述通用输入词语集合采取利用固定的停用词列表进行分析过滤,将所述通用输入词语集合转换成去除停用词的所述通用输入词语集合,对所述专业输入词语集合采用相对熵来度量其包含的信息量,根据信息量的多少对所述专业输入词语集合进行降序排序,将排序在后2%的所述专业输入词语集合中的词语去除,构成去除停用词的所述专业输入词语集合,将所述去除停用词的所述通用输入词语集合以及所述去除停用词的所述专业输入词语集合结合;即形成精简词语集合;所述文本的形式化模块适于将所述精简词语集合转换成计算机能识别的形式化模型,首先根据所述输入文本的词语出现的顺序将所述精简词语集合表示为词语有序序列,并且将所述词语有序序列表示成状态变迁系统,所述状态变迁系统是由状态以及状态之间的变迁关系组成的一种计算机能识别的形式化模型,所述词语有序序列的词语映射为所述状态变迁系统的状态,所述词语有序序列中相邻的词语表示为其映射的所述状态变迁系统的状态之间的变迁关系;所述文本权值计算模块适于对所述状态变迁系统进行处理转换成状态标签变迁系统,所述状态标签变迁系统由所述状态变迁系统以及所述状态变迁系统中的状态上的标签组成;即计算所述词语有序序列中的词语在所述输入文本中的分布律,并计算所述输入文本的长度,计算两者的比值,作为局部系数,计算所述词语有序序列中的词语的信息增益,作为全局系数,将所述局部系数乘以所述全局系数得到所述词语有序序列中的词语的权重,将所述词语有序序列中的词语的权重作为所述状态变迁系统中的状态上的标签,从而得到所述状态标签变迁系统;所述模型训练模块适于根据所述词语有序序列中的词语的权重将所述状态变迁系统的状态进行进一步地升序排序,形成词语权重序列,对所述词语权重序列扩展维数,加入具有变迁关系的状态,构成词语向量空间模型,并且根据支持向量机分类器对所述词语向量空间模型进行处理并进行降维,得到词语类别的序列集合;即所述词语类别的序列集合由词语组成的序列组成,一个类别的词语属于一个序列,并且一个序列中的词语按所述词语的权重的降序排序;所述噪声降低模块对所述词语类别的序列集合进行清除噪声数据,并且确保不改变所述词语类别的序列集合的结构;即所述清除噪声数据的步骤为首先将所述词语类别的序列集合进行初始化,并且结合所述状态变迁系统的状态之间的变迁关系,得到近邻列表,共享所述输入文本中的分布律,计算所述近邻列表的频度,根据所述近邻列表的频度计算阈值,将权重低于阈值的所述词语类别的序列集合中的词语去除。...

【技术特征摘要】
1.一种计算机文本分类体系,其特征在于,包括:文本预处理模块、文本的形式化模块,文本权值计算模块、模型训练模块、噪声降低模块;所述文本预处理模块适于将输入文本中的标点符号、空格去除,对所述输入文本的语法错误进行纠正,分割成词语集合,以及对所述词语集合进行停用词去除,所述停用词去除被分为两步:第一步,对所述词语集合进行分类,将所述词语集合分为通用输入词语集合以及专业输入词语集合;第二步,对所述通用输入词语集合采取利用固定的停用词列表进行分析过滤,将所述通用输入词语集合转换成去除停用词的所述通用输入词语集合,对所述专业输入词语集合采用相对熵来度量其包含的信息量,根据信息量的多少对所述专业输入词语集合进行降序排序,将排序在后2%的所述专业输入词语集合中的词语去除,构成去除停用词的所述专业输入词语集合,将所述去除停用词的所述通用输入词语集合以及所述去除停用词的所述专业输入词语集合结合;即形成精简词语集合;所述文本的形式化模块适于将所述精简词语集合转换成计算机能识别的形式化模型,首先根据所述输入文本的词语出现的顺序将所述精简词语集合表示为词语有序序列,并且将所述词语有序序列表示成状态变迁系统,所述状态变迁系统是由状态以及状态之间的变迁关系组成的一种计算机能识别的形式化模型,所述词语有序序列的词语映射为所述状态变迁系统的状态,所述词语有序序列中相邻的词语表示为其映射的所述状态变迁系统的状态之间的变迁关系;所述文本权值计算模块适于对所述状态变迁系统进行处理转换成状态标签变迁系统,所述状态标签变迁系统由所述状态变迁系统以及所述状态变迁系统中的状态上的标签组成;即计算所述词语有序序列中的词语在所述输入文本中的分布律,并计算所述输入文本的长度,计算两者的比值,作为局部系数,计算所述词语有序序列中的词语的信息增益,作为全局系数,将所述局部系数乘以所述全局系数得到所述词语有序序列中的词语的权重,将所述词语有序序列中的词语的权重作为所述状态变迁系统中的状态上的标签,从而得到所述状态标签变迁系统;所述模型训练模块适于根据所述词语有序序列中的词语的权重将所述状态变迁系统的状态进行进一步地升序排序,形成词语权重序列,对所述词语权重序列扩展维数,加入具有变迁关系的状态,构成词语向量空间模型,并且根据支持向量机分类器对所述词语向量空间模型进行处理并进行降维,得到词语类别的序列集合;即所述词语类别的序列集合由词语组成的序列组成,一个类别的词语属于一个序列,并且一个序列中的词语按所述词语的权重的降序排序;所述噪声降低模块对所述词语类别的序列集合进行清除噪声数据,并且确保不改变所述词语类别的序列集合的结构;即所述清除噪声数据的步骤为首先将所述词语类别的序列集合进行初始化,并且结合所述状态变迁系统的状态之间的变迁关系,得到近邻列表,共享所述输入文本中的分布律,计算所述近邻列表的频度,根据所述近邻列表的频度计算阈值,将权重低于阈值的所述词语类别的序列集合中的词语去除。2.一种计算机文本分类系统,其特征在于,包括:依次相连的文本预处理模块、文本特征提取模块、文本训练处理模块、分类处理模块、文本种类标记模块以及效果完善模块。3.根据权利要求2所述的计算机文本分类系统,其特征在于,所述文本预处理模块适于将输入文本中的标点符号、空格去除,分割成词语集合,以及去除无意义的词语;即形成精简词语集合。4.根据权利要求3所述的计算机文本分类系统,其特征在于,所述文本特征提取模块适于从精简词...

【专利技术属性】
技术研发人员:钱进吕萍
申请(专利权)人:江苏理工学院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1