基于类别概念空间的自动文本分类方法技术

技术编号：2843951 阅读：268 留言：0更新日期：2012-04-11 18:40

本发明专利技术是一种基于类别概念的自动文本分类方法，方法分为训练和分类两个阶段，包括步骤：１）构造类别词语矩阵数据；２）基于类别词语矩阵建立每个词语的倒排类别频率数据表；３）基于倒排类别频率数据表构建有效词语集；４）基于有效词语集重新构造类别词语矩阵数据；５）基于重新构造的类别词语矩阵建立每个类别的倒排词语频率数据表；６）基于类别词语矩阵和倒排词语频率数据表，建立基于类别概念空间的词语向量表示；７）基于待分类文档中词频和倒排类别频率构造类别概念向量空间中的待分类文档向量数据；８）依据待分类文档向量中各分量大小可直接获得待分类文档的所属类别。本发明专利技术适用于高效的信息分类、信息过滤和信息监控等。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于内容和信息分析与处理领域，特别是一种。
技术介绍
自动文本分类(Auto Text Classification)是研究在给定类别情况下针对大量文档进行计算机自动分类的技术。这一技术的基础是向量空间模型，其中向量空间是以词语或是经过变换的概念为维度的等高维向量空间，在这个空间中，应用各种分类方法对文档进行分类。至今各种研究报告表明，基于词语正交的高维向量空间不能准确描述文本，而经过矩阵变换得到的正交概念空间也存在无法度量和设定变换阈值等问题。由此也使自动文本分类研究问题面临在文本表示模型上寻求突破的迫切要求。
技术实现思路
本专利技术的目的在于，提供一种。该方法有效实现了基于类别概念的文本形式化表示，并能保证计算机自动文本分类的高效性且高准确性。本专利技术一种，是将词语映射到类别概念空间，并基于文本中带权重有效词语的向量累计获得分类结果的新型技术；其特征在于，整个方法分为训练和分类两个阶段，包括如下步骤步骤1)构造类别词语矩阵数据；步骤2)基于类别词语矩阵建立每个词语的倒排类别频率数据表；步骤3)基于倒排类别频率数据表构建有效词语集；步骤4)基于有效词语集重新构造类别词语矩阵数据；步骤5)基于重新构造的类别词语矩阵建立每个类别的倒排词语频率数据表；步骤6)基于类别词语矩阵和倒排词语频率数据表，建立基于类别概念空间的词语向量表示；步骤7)基于待分类文档中词频和倒排类别频率构造类别概念向量空间中的待分类文档向量数据；步骤8)依据待分类文档向量中各分量大小可直接获得待分类文档的所属类别。其中步骤6)所述基于类别词语矩阵和倒排词语频率数据表，建立...

【技术保护点】
一种基于类别概念空间的自动文本分类方法，是将词语映射到类别概念空间，并基于文本中有效词语的向量累计获得分类结果的新型技术；其特征在于，整个方法分为训练和分类两个阶段，包括如下步骤：步骤１）构造类别词语矩阵数据；步骤２）基于类别词语矩阵建立每个词语的倒排类别频率数据表；步骤３）基于倒排类别频率数据表构建有效词语集；步骤４）基于有效词语集重新构造类别词语矩阵数据；步骤５）基于重新构造的类别词语矩阵建立每个类别的倒排词语频率数据表；步骤６）基于类别词语矩阵和倒排词语频率数据表，建立基于类别概念空间的词语向量表示；步骤７）基于待分类文档中词频和倒排类别频率构造类别概念向量空间中的待分类文档向量数据；步骤８）依据待分类文档向量中各分量大小可直接获得待分类文档的所属类别。

【技术特征摘要】
1.一种基于类别概念空间的自动文本分类方法，是将词语映射到类别概念空间，并基于文本中有效词语的向量累计获得分类结果的新型技术；其特征在于，整个方法分为训练和分类两个阶段，包括如下步骤步骤1)构造类别词语矩阵数据；步骤2)基于类别词语矩阵建立每个词语的倒排类别频率数据表；步骤3)基于倒排类别频率数据表构建有效词语集；步骤4)基于有效词语集重新构造类别词语矩阵数据；步骤5)基于重新构造的类别词语矩阵建立每个类别的倒排词语频率数据表；步骤6)基于类别词语矩阵和倒排词语频率数据表，建立基于类别概念空间的词语向量表示；步骤7)基于待分类文档中词频和倒排类别频率构造类别概念向量空间中的待分类文档向量数据；步骤8)依据待分类文档向量中各分量大小可直接获得待分类文档的所属类别。2.按权利要求1所述的基于类别概念空间的自动文本分类方法，其特征在于，其中步骤6)所述基于类别词语矩阵和倒排词语频率数据表，建立基于类别概念空间的词语...

【专利技术属性】
技术研发人员：鲁松，
申请(专利权)人：国家计算机网络与信息安全管理中心，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人