一种基于特征项选择与权重计算的文本分类方法技术

技术编号:8323626 阅读:356 留言:0更新日期:2013-02-14 01:58
本发明专利技术公开了一种基于特征项选择及权重计算的文本分类方法,对分析整理得到的语料训练集,在传统的TF-IDF特征项权重计算基础上,根据CHI卡方统计考虑特征项与不同类别之间的相关度、特征项的信息熵考虑特征项类内的平均分布情况对特征项的权重进行调整。再根据特征项类间权重差对特征项进行评估、选择。将训练集文本与待分类文本分别以特征子空间中的特征项表示成向量的形式。计算待分类文本和训练集文本之间的相似度,来确定待分类文本的类别。由于在特征项选择及权重计算过程中,在TF-IDF基础上综合考虑了特征项在类间类内的分布情况,提高了特征项选择的准确度,有效降低特征项维数,从而提高文本分类的效率和精度。

【技术实现步骤摘要】

本专利技术属于信息资源管理中的文本分类
,具体来讲,涉及一种基于特征项选择及权重计算的文本分类方法。
技术介绍
在爆炸式增长的互联网信息资源中,文本信息是应用最为广泛的一种形式,这是因为文本是信息的载体,而多数其他的形式的信息(图像、声音)均可以用文本进行标注。为了迅速有效的发现信息和资源,文本分类技术作为有效地组织和管理文本信息的重要手段应运而生。文本分类是在给定分类类别的情况下,根据文本的内容或属性将其分到一个或多个预定义类别。目前,文本分类领域中主要采用的文本表示方式是VSM(向量空间模型),即在对语料集的文本进行分词、去除停用词后,经过特征项选择和权重计算,最终将语料集文本表示成N维的向量空间。在实际应用中,特征项的维数常常高达万维,而如此高维的特征项对于文本分类未必是有益和必要的。因此,为了提高文本分类的效率和精度,如何降低特征项的维数以及特征项的权重如何计算成为文本分类中首要解决的问题。现有技术的文本分类方法在进行特征项的选择和权重计算时采用TF-IDF(TermFrequency - Inverse Document Frequency,词频-逆文本)函数。由于该函数综合考虑了特征项在文本中出现的次数和在整个训练文本集的分布情况,加之其计算简单并有较高的准确率,在文本分类
得到了应用广泛。但在实际应用中,传统的TF-IDF函数仍存在明显的不足DTF-IDF认为在特征项词频数相同情况下,若语料集中包含某个特征项的文本数越大,则IDF值越小,即权重也越小。但事实上,若特征项不是均匀的出现在语料集各个类的文本中而是集中地出现在某一类别的文本中,则说明该特征项能很好的表征该类的特征,权重应该越大而不是越小;2) TF-IDF认为若特征项词频数越大,包含特征项的文本数越小,则特征项权重越大。但若特征项集中地出现在某一个类别的某个文本中,它就不能表征该类别的特征,特征项权重就应该越小。可见,传统TF-IDF仅考虑了特征项在文本集中的分布情况,而忽略特征项在不同文本类别之间的分布比例以及特征项在某一类别内部的分布情况,因此在采用传统TF-IDF根据特征项及权重进行文本分类时可能会出现误判。
技术实现思路
本专利技术的目的在于克服现有技术不足,提供一种基于特征项选择及权重计算的文本分类方法,以提高特征项选择的准确度,有效降低特征项维数,从而提高文本分类的效率和精度。4为实现上述专利技术目的,本专利技术基于特征项选择及权重计算的文本分类方法,包括以下步骤(I)、收集不同类别文本,分析整理后按类别归入语料训练集;(2)、对语料训练集的文本进行预处理,包括分词、去除停用词、统计特征项词频数;(3)、利用改进TF-IDF函数计算语料训练集各文本特征项权重,改进TF-IDF函数公式为w (tk, Tj) = tf (tk, Tj) X idf (tk) X x 2 (tk, Ci) X H (tk, Ci)其中w(tk, Tj)表示文本Tj中特征项tk的权重值;tf (tk, Tj)表示特征项tk在文本Tj中的词频数;本文档来自技高网
...

【技术保护点】
一种基于特征项选择及权重计算的文本分类方法,包括以下步骤:(1)、收集不同类别文本,分析整理后按类别归入语料训练集;(2)、对语料训练集的文本进行预处理,包括分词、去除停用词、统计特征项词频数等;(3)、利用改进TF?IDF函数计算各文本特征项权重,改进TF?IDF函数公式为:w(tk,Tj)=tf(tk,Tj)×idf(tk)×χ2(tk,Ci)×H(tk,Ci)其中:w(tk,Tj)表示文本Tj中特征项tk的权重值;tf(tk,Tj)表示特征项tk在文本Tj中的词频数;表示特征项tk的逆文本频率,其中N表示语料训练集中文本总数,Nk表示训练集中包含特征项tk的文本数;χ2(tk,Ci)=N(AD-BC)2(A+C)(B+D)(A+B)(C+D),表示特征项tk与类别Ci之间的相关度,其中A为包含特征项tk且属于类别Ci的文本数,B为包含特征项tk但不属于类别Ci的文本数,C为不包含特征项tk但属于类别Ci的文本数,D为不包含特征项tk也不属于类别Ci的文本数,N表示语料训练集中文本总数;表示特征项tk在类别Ci内的分布信息熵,其中表示类别Ci内特征项tk在文本Tj中的分布概率,tf(tk,Tj)表示特征项tk在文本Tj中的词频数,表示类别Ci内特征项tk的总词频,n表示类别Ci的文本总数;(4)、计算特征项类间差,评估特征项,特征项评估函数公式为:Q(tk)=Max(w(tk,Ci))?lessMax(w(tk,Ci))(i=1...S)其中,Q(tk)表示特征项类间权重最大值与次大值之差,S表示语料训练集中文本分为S个类别,是类别Ci中所有n篇文本中特征项tk的权重之和,Max(w(tk,Ci))与lessMax(w(tk,Ci))分别求出S个w(tk,Ci)中的最大值和次大值;根据实际需要设置特征项评估差值的阈值P,若Q(tk)≥P,则将特征项tk加入特征子空间;若Q(tk)<P,将此特征项tk舍弃,完成对文本特征空间的降维操作,形成特征子空间;(5)、构建分类器,将语料训练集文本表示为向量形式Tj(ωj1,ωj2,ωjk...,ωjm),其中ωjk为文本Tj中特征子空间包含的特征项tk的权重,m表示特征子空间包含的特征项个数;对待分类文本Ti进行分词、去除停用词处理,统计特征子空间中所有特征项在文本Ti中的词频,采用改进TF?IDF函数计算各特征项权重,将Ti也表示成向量的形式:Ti(ωi1,ωi2,ωik…,ωim);计算Ti(ωi1,ωi2,ωik…,ωim)与所有Tj(ωj1,ωj2,ωjk…,ωjm)的夹角余弦值,当夹角余弦值最大,说明文本Ti与文本Tj的相似度最大,则将文本Ti归入该文本Tj所属的类别中。FDA00002531918400011.jpg,FDA00002531918400013.jpg,FDA00002531918400014.jpg,FDA00002531918400015.jpg,FDA00002531918400021.jpg...

【技术特征摘要】
1.一种基于特征项选择及权重计算的文本分类方法,包括以下步骤 (1)、收集不同类别文本,分析整理后按类别归入语料训练集; (2)、对语料训练集的文本进行预处理,包括分词、去除停用词、统计特征项词频数等; (3)、利用改进TF-IDF函数计算各文本特征项权重,改进TF-IDF函数公式为 w (tk, Tj) =tf (tk, Tj) X idf (tk) X X 2 (tk, Ci) X H (tk, Ci) 其中 w(tk, Tj)表示文本L中特征项tk的权重值; tf (tk, Tj)表示特征项tk在文本Tj中的词频数MfW) = loy(— + 00i),表示特征项tk的逆文本频率,其中N表示语料训练集中文本总数,Nk表示训练集中包含特征项tk的文本数; A.,(::) =,表示特征项^与类别咖的相关度,其巾A为包含特征项tk且属于类别Ci的文本数,B为包含特征项tk但不属于类别Ci的文本数,C为不包含特征项tk但属于类别Ci的文本数,D为不包含特征项tk也不属于类别Ci的文本η数,N表示语料训练集中文本总数;例~工',)=乙/仏/,(: )//:>(广(/0(',.)),表示特征项4在 J=I类别C1内的分布信息熵,其中/%·,()) =表示类别C1内特征项tk在文本Tj中的分 η布概率,tf (tk,Tj)表示特征项tk在文本Tj中的词频数,认,= Σ扒々,G)表示类别Ci内J=I特征项tk的总词频,η表示类别Ci的文本总数; (4)、计算特征项类间差,评估特征项,特征项评估函数公式为 Q (tk) =Max (w (tk, Ci)) -IessMax (...

【专利技术属性】
技术研发人员:孙健梁雪芬艾丽丽隆克平徐杰王晓丽张毅姚洪哲李乾坤陈小英陈旭
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1