基于类别概念空间的自动文本分类方法技术

技术编号:2843951 阅读:268 留言:0更新日期:2012-04-11 18:40
本发明专利技术是一种基于类别概念的自动文本分类方法,方法分为训练和分类两个阶段,包括步骤:1)构造类别词语矩阵数据;2)基于类别词语矩阵建立每个词语的倒排类别频率数据表;3)基于倒排类别频率数据表构建有效词语集;4)基于有效词语集重新构造类别词语矩阵数据;5)基于重新构造的类别词语矩阵建立每个类别的倒排词语频率数据表;6)基于类别词语矩阵和倒排词语频率数据表,建立基于类别概念空间的词语向量表示;7)基于待分类文档中词频和倒排类别频率构造类别概念向量空间中的待分类文档向量数据;8)依据待分类文档向量中各分量大小可直接获得待分类文档的所属类别。本发明专利技术适用于高效的信息分类、信息过滤和信息监控等。

【技术实现步骤摘要】

本专利技术属于内容和信息分析与处理领域,特别是一种。
技术介绍
自动文本分类(Auto Text Classification)是研究在给定类别情况下针对大量文档进行计算机自动分类的技术。这一技术的基础是向量空间模型,其中向量空间是以词语或是经过变换的概念为维度的等高维向量空间,在这个空间中,应用各种分类方法对文档进行分类。至今各种研究报告表明,基于词语正交的高维向量空间不能准确描述文本,而经过矩阵变换得到的正交概念空间也存在无法度量和设定变换阈值等问题。由此也使自动文本分类研究问题面临在文本表示模型上寻求突破的迫切要求。
技术实现思路
本专利技术的目的在于,提供一种。该方法有效实现了基于类别概念的文本形式化表示,并能保证计算机自动文本分类的高效性且高准确性。本专利技术一种,是将词语映射到类别概念空间,并基于文本中带权重有效词语的向量累计获得分类结果的新型技术;其特征在于,整个方法分为训练和分类两个阶段,包括如下步骤步骤1)构造类别词语矩阵数据;步骤2)基于类别词语矩阵建立每个词语的倒排类别频率数据表;步骤3)基于倒排类别频率数据表构建有效词语集; 步骤4)基于有效词语集重新构造类别词语矩阵数据;步骤5)基于重新构造的类别词语矩阵建立每个类别的倒排词语频率数据表;步骤6)基于类别词语矩阵和倒排词语频率数据表,建立基于类别概念空间的词语向量表示;步骤7)基于待分类文档中词频和倒排类别频率构造类别概念向量空间中的待分类文档向量数据;步骤8)依据待分类文档向量中各分量大小可直接获得待分类文档的所属类别。其中步骤6)所述基于类别词语矩阵和倒排词语频率数据表,建立基于类别概念空间的词语向量表示,即词语的类别频率与该类别的倒排词语频率相乘并归一化,得到词语在类别概念空间中的向量表示。其中步骤7)所述基于待分类文档中词频和倒排类别频率构造类别概念向量空间中的待分类文档向量数据,即依据待分类文档中词语的词频与倒排类别频率相乘并归一化,得到词语在待分类文档中权重,依据各词语权重分配,对各词语向量求和得到待分类文档在类别概念空间中的向量表示,在知识表示体系中,一个类别就是一个概念的集合体,而整个模型是以多维空间方式设计的,所以,我们称之为类别概念空间。其中步骤8)所述依据待分类文档向量中各分量大小可直接获得待分类文档的所属类别,即待分类文档向量的各分量中最大的一个分量所对应的类别就是待分类文档的所属类别,即将待分类文档映射到类别概念向量空间中,分类工作即可完成。本专利技术中使用了数据处理、变换中的矩阵数据,由此建立每个词语的倒排类别频率数据表的技术手段,来解决文本分类的技术问题,达到自动文本分类,而且分类效率极高的技术效果。与传统自动文本分类相比,本专利技术的特点是设计了新颖的基于类别概念空间的文本表示方法和基于这一表示方法的自动文本分类方法。使用本专利技术的新方法,可以实现文本的真正概念表示,克服词语间非正交特性的缺陷,并由此带来文本分类的准确性,同时,由于分类的过程就是将文本映射到概念空间的过程,所以,分类效率极高。本专利技术适用于高效的信息分类、信息过滤和信息监控等领域。附图说明图1是本专利技术的的流程图。具体实施例方式本文使用d‾=<tf1,tf2,…,tfn>]]>表示一个文档的词频向量,其中tfj表示第j号词语在该文档d中的出现频率;使用C‾m=<tcf1,tcf2,…,tcfn>]]>表示第m号类别的词语频率向量,其中tcfn表示第n号词语在第m号类别中的出现频率。图1的方法步骤如下在训练阶段,步骤1、构造类别词语矩阵数据可以构造训练集的类别词语矩阵数据,Cq×n=[c‾1,c‾2,…,c‾q]T,]]>其中共有q个类别,n个词语。 其中,mij表示在i号类中j号词语的个数。步骤2、基于类别词语矩阵建立每个词语的倒排类别频率数据表依据类别词语矩阵,采用方法ICFi=log(|C||ti|+0.01)]]>得到我们命名为倒排类别频率(Index Category Frequency,ICF),这是为定义第i号词语区别类别的能力。其中|C|是类别的总数,值为q;ti为出现过第i号词语的类别的总数。ICFi值越大,表明第i号词语区别各类别的能力越强。步骤3、基于倒排类别频率数据表构建有效词语集排序后,由最大的80%部分构成有效词语集,列表大小设为p。步骤4、基于有效词语集重新构造类别词语矩阵数据基于有效词语集重新构造类别词语矩阵数据Cq×p=[c‾1,c‾2,…,c‾p]T·]]>步骤5、基于重新构造的类别词语矩阵建立每个类别的倒排词语频率数据表基于新的类别词语矩阵Cq×p采用方法ITFi=log(|T||ci|+0.01)]]>得到我们命名为倒排词语频率(Index Term Frequency,ITF),这是为定义第i号类别区别有效词语集中各词语的能力。其中|T|是有效词表的大小,值为p;|ci|为出现在第i号类别中的词语集大小。ITFi值越大,表明i号类别区别词语的能力越强。步骤6、基于类别词语矩阵和倒排词语频率数据表,建立基于类别概念空间的词语向量表示为将词语映射到基于类别的概念空间中,本专利技术设计了词语在各类别中出现频率与倒排词语频率相乘并归一化的方法得到基于类别概念空间的词语向量表示,计算方法为t‾j=<tcf1×ITF1Σi=1q(tcfi×ITFi),tcf2×ITF2Σi=1q(tcfi×ITFi),…,tcfq×ITFqΣi=1q(tcfi×ITFi)>·]]>其中,tcf1,tcf2,...,tcfq分别是第1号类别、第2号类别、...、第q号类别中出现第j号词语的词频;ITF1,ITF2,...,ITFg分别是第1号类别、第2号类别、...、第g号类别的倒排词语频率;设计各分量分别除以 是为了归一化处理。至此,完成了有效词语集在类别概念空间的映射,即设计了一种新型的词语表示方式。在分类阶段步骤7、基于待分类文档中词频和倒排类别频率构造类别概念向量空间中的待分类文档向量数据待分类文档被形式化为文档d‾=<tf1,tf2,…,tfn>,]]>对其进行分类的过程就是依据该文档中的词语及其权重,将其映射到类别概念空间中完成分类。首先,设计一种方法计算该文档中各词语表述该文档的能力,本文档来自技高网...

【技术保护点】
一种基于类别概念空间的自动文本分类方法,是将词语映射到类别概念空间,并基于文本中有效词语的向量累计获得分类结果的新型技术;其特征在于,整个方法分为训练和分类两个阶段,包括如下步骤:步骤1)构造类别词语矩阵数据;步骤2)基于类 别词语矩阵建立每个词语的倒排类别频率数据表;步骤3)基于倒排类别频率数据表构建有效词语集;步骤4)基于有效词语集重新构造类别词语矩阵数据;步骤5)基于重新构造的类别词语矩阵建立每个类别的倒排词语频率数据表;步 骤6)基于类别词语矩阵和倒排词语频率数据表,建立基于类别概念空间的词语向量表示;步骤7)基于待分类文档中词频和倒排类别频率构造类别概念向量空间中的待分类文档向量数据;步骤8)依据待分类文档向量中各分量大小可直接获得待分类文档 的所属类别。

【技术特征摘要】
1.一种基于类别概念空间的自动文本分类方法,是将词语映射到类别概念空间,并基于文本中有效词语的向量累计获得分类结果的新型技术;其特征在于,整个方法分为训练和分类两个阶段,包括如下步骤步骤1)构造类别词语矩阵数据;步骤2)基于类别词语矩阵建立每个词语的倒排类别频率数据表;步骤3)基于倒排类别频率数据表构建有效词语集;步骤4)基于有效词语集重新构造类别词语矩阵数据;步骤5)基于重新构造的类别词语矩阵建立每个类别的倒排词语频率数据表;步骤6)基于类别词语矩阵和倒排词语频率数据表,建立基于类别概念空间的词语向量表示;步骤7)基于待分类文档中词频和倒排类别频率构造类别概念向量空间中的待分类文档向量数据;步骤8)依据待分类文档向量中各分量大小可直接获得待分类文档的所属类别。2.按权利要求1所述的基于类别概念空间的自动文本分类方法,其特征在于,其中步骤6)所述基于类别词语矩阵和倒排词语频率数据表,建立基于类别概念空间的词语...

【专利技术属性】
技术研发人员:鲁松
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1