The invention provides a text classification feature selection method, which can reduce the feature dimension and the classification complexity, and improve the classification accuracy. The method comprises obtaining a feature set S and a target category C, and calculating each feature S in the feature set X
【技术实现步骤摘要】
一种文本分类特征选择方法
本专利技术涉及机器学习文本分类领域,特别是指一种文本分类特征选择方法。
技术介绍
随着互联网规模的不断扩大,汇聚在互联网中的信息资源也不断增多。为了有效的管理和方便的利用这些信息资源,基于内容的信息检索和数据挖掘一直以来备受关注。文本分类技术是信息检索和文本数据挖掘的重要基础,其主要任务是根据未知类别的文字和文档的内容,将它们判别为预先给定类别中的一个或多个。然而,训练样本数量大和向量维数高这两大特点,决定了文本分类是一个运算时间和空间复杂度都很高的机器学习问题。因此,我们需要进行特征选择,在尽可能保证分类性能的同时降低特征维度。特征选择是一个重要的数据预处理过程,在常用的文本分类特征选择方法中,卡方检验(Chi-Square)通过建立零假说,假定词与目标类别不相关,选择偏离假设程度大的词作为特征。但它只统计文档中是否出现某词,而不管出现了几次,这使得它对低频词有所偏袒。互信息(MutualInformation)方法通过度量词的存在给目标类别带来的信息量来选择特征。但它只考虑了词与目标类别之间的关联度,忽视了词与词之间可能存在的依赖。T ...
【技术保护点】
一种文本分类特征选择方法,其特征在于,包括:步骤1:获取特征集S和目标类别C,计算特征集S中每一个特征x
【技术特征摘要】
1.一种文本分类特征选择方法,其特征在于,包括:步骤1:获取特征集S和目标类别C,计算特征集S中每一个特征x(i)与目标类别C之间的关联度Rc(x(i)),并按照关联度Rc(x(i))大小对特征集S进行降序排序;步骤2:计算特征集S中每两个特征之间的冗余度Rx和协同度Sx,结合特征与目标类别之间的关联度Rc(x(i))计算特征的灵敏度Sen,并将其与预先设定的阈值th比较,结合对特征集S的降序排序结果,按照阈值th将特征集S划分为候选集Ssel和排除集Sexc;步骤3:计算候选集Ssel和排除集Sexc中的特征之间的灵敏度Sen,并将其与预先设定的阈值th比较,按照阈值th对候选集Ssel和排除集Sexc进行调整。2.根据权利要求1所述的文本分类特征选择方法,其特征在于,所述步骤1包括:步骤11,对于特征集S中每一个特征x(i),按照公式Rc(x(i))=I(x(i);C)计算特征x(i)与目标类别C之间的关联度Rc(x(i)),其中,I(x(i);C)表示特征x(i)与目标类别C之间的互信息;步骤12,按照关联度Rc(x(i))的大小将特征集S中的特征从大到小排序,得到排序后的特征集S;其中,x(i)表示特征集S中第i个特征,Rc(x(i))表示特征x(i)与目标类别C之间的关联度。3.根据权利要求2所述的文本分类特征选择方法,其特征在于,所述I(x(i);C)表示为:其中,ck表示目标类别C的第k个类别,p(x(i),ck)表示特征x(i)和类别ck同时出现的概率,p(x(i)|ck)表示在ck类别中特征x(i)出现的概率,p(x(i))表示特征x(i)在特征集S中出现的概率。4.根据权利要求1所述的文本分类特征选择方法,其特征在于,所述冗余度Rx表示为:Rx(x(i);x(j))=min(0,IG(x(i);x(j);C));i≠j其中,IG(x(i);x(j);C)表示特征集S中第i个特征x(i)与第j个特征x(j)之间的相关度增益,Rx(x(i);x(j))表示特征x(i)与特征x(j)之间冗余度,Rx(x(i);x(j))的值为0和相关度增益中的较小值。5.根据权利要求1所述的文本分类特征选择方法,其特征在于,所述协同度Sx表示为:Sx(x(i);x(j))=max(0,IG(x(i);x(j);C));i≠j其中,IG(x(i);x(j);C)表示特征集S中第i个特征x(i)与第j个特征x(j)之间的相关度增益,Sx(x(i);x(j))表示特征x(i)与特征x(j)之间协同度,Sx(x(i);x(j))的值为0和相关度增益中的较大值。6.根据权利要求4或5所述的文本分类特征选择方法,其特征在于,所述IG(x(i);x(j);C)表示为:IG(x(i);x(j);C)=I[(x(i),x(j));C]-I(x(i);C)-I(x(j);C)其中,I(x(i);C)表示特征x(i)与目标类别C之间的互信息;I(x(j);C)表示特征x(j)与目标类别C之间的互信息;I((x(i),x(j);C)表示特征x(i)、特征x(j)与目标类别C之间的互信息。7.根据权利要求6所述的文本分类特征选择方法,其特征在于,所述I((x(i),x(j);C)表示为:其中,ck表示目标类别C的第k个类别,p(x(i),x(j),ck)表示特征x(i)、特征x(j)和类别ck同时出现的概率,p((x(i),x(j)|ck)表示在ck类别中特征x(i)和特征x(j...
【专利技术属性】
技术研发人员:张晓彤,余伟伟,刘喆,王璇,
申请(专利权)人:北京科技大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。