基于信息增益与最大相关最小冗余二阶段特征选择方法技术

技术编号:19342129 阅读:35 留言:0更新日期:2018-11-07 13:53
本发明专利技术公开了一种基于信息增益与最大相关最小冗余二阶段特征选择方法,首先根据信息增益算法初步选取特征词,得到特征词子集;计算特征词与类别之间的互信息值;计算特征词之间的互信息值;计算特征词的类差分度;计算特征词的类差分度差值;将类差分度差值引入最大相关最小冗余MRMR算法进行二阶段特征词选取;本发明专利技术通过信息增益选取一阶段特征集合,同时将类差分度思想引入最大相关最小冗余方法作为二阶段特征提取方法,进而提升特征集合选取的准确度,实现特征词的准确选取,解决现有特征提取分类效果差、计算量大以及特征冗余等技术问题。

Two stage feature selection method based on information gain and maximum correlation minimum redundancy

The invention discloses a two-stage feature selection method based on information gain and maximum correlation and minimum redundancy. Firstly, feature words are selected according to information gain algorithm to obtain a subset of feature words; mutual information value between feature words and categories is calculated; mutual information value between feature words is calculated; and class difference degree of feature words is calculated. Computing the difference of class difference degree of feature words; introducing the difference of class difference into the maximum correlation minimum redundancy MRMRMR algorithm to select two-stage feature words; the present invention selects one-stage feature set by information gain, and introduces the idea of class difference degree into the maximum correlation minimum redundancy method as a two-stage feature extraction method, and then extracts it. Upgrading the accuracy of feature set selection, realizing the accurate selection of feature words, resolving the technical problems of poor classification effect, large amount of calculation and feature redundancy of existing feature extraction.

【技术实现步骤摘要】
基于信息增益与最大相关最小冗余二阶段特征选择方法
本专利技术属于机器学习及自然语言处理领域,尤其是涉及一种基于信息增益与最大相关最小冗余二阶段特征选择方法。
技术介绍
随着信息化时代的来临,能够获取到的信息数据量越来越大,特征维度也越来越高,尽管高维度能够让信息更加完整,但同时也增加了对分类器的要求,并且容易产生维度灾难的问题。文本的特征选取是从预处理过的文本中选择最具代表性的特征词集合,通过选择的特征子集达到降维的效果。传统的特征词选取的方法有信息增益(informationgain,IG),文本词频(documentfrequency,DF),χ2统计量(chisquarestatistic,CHI),词频-逆文本率(termfrequency-inversedocumentfrequency,TF-IDF)等。这些传统的特征选取方法仅仅考虑了特征词与文本类别之间以及文本与文本之间的关系,没有考虑特征词之间的关系,特征词之间可能存在冗余,即需要对特征词进行二次提取,去掉冗余。文献[姚海明,王娜,齐妙,李研,改进的最大相关最小冗余特征选择方法研究,计算机工程与应用,2014,50(9):116-122.]通过最大相关最小冗余算法(minimumredundancymaximumrelevancy,MRMR)选择特征子集,并且利用T检验(T-test),χ2算法(chisquarestatistic)等作为特征子集的评价函数。文献[陈素萍,谢丽聪,一种文本特征选择方法的研究,计算机技术与发展,2009,19(2):112-115.]比较了信息增益、期望交叉熵(expectedcrossentropy,ECE)、互信息(mutualinformation,MI)、χ2统计量以及MRMR算法,最终提出最大相关最小冗余MRMR模型的特征选择方法。该文献直接使用最大相关最小冗余MRMR算法进行特征子集的选择,虽然保证了特征子集语义的完整,但生成特征子集的计算代价较大。为了减小计算代价,文献[李军怀,付静飞,费蓉,王怀军,基于MRMR的文本分类特征选择方法,计算机科学,2016,43(10):225-228.]提出了提出了基于TF-IDF与MRMR的二阶段特征选择方法。但文献[LBXu,JLiu,WLZhou,QYan,AdaptiveNaveBayesianClassifierforAutomaticClassificationofWebpagefromMassiveNetworkData.SixthInternationalConferenceonIntelligentHuman-machineSystems&Cybernetics,2014,1:127-130.]中实验表明信息增益算法分类效果优于词频-逆文本率TF-IDF算法。同时文献[任军,葛卫丽,陈家勇,一种基于类差分度的互信息特征选择方法,中国科技论文,2015(20):2386-2389.]引入类差分度的概念,提出一种改进的互信息特征选择方法,其核心思想利用类差分度,解决互信息方法未考虑到的特征项与类别之间关系问题。
技术实现思路
本专利技术的目的在于为文本分类任务选取更加准确的特征集合,提出一种基于信息增益与最大相关最小冗余二阶段特征选择方法,实现特征词的准确选取,解决现有特征提取分类效果差、计算量大以及特征冗余等技术问题。本专利技术是在传统信息增益算法的基础上增加第二阶段的最大相关最小冗余特征提取方法,并在其基础上增加类差分度思想,平衡传统的最大相关最小冗余方法在特征与类别以及特征与特征之间的比重,进而提升文本分类效果。本专利技术采用如下技术方案,一种基于信息增益与最大相关最小冗余二阶段特征选择方法,具体步骤如下:1)利用信息增益算法初步选取特征词,得到特征词子集;2)计算步骤1)得到的特征词与文本类别之间的互信息值;3)计算特征词之间的互信息值;4)计算特征词的类差分度;5)计算特征词的类差分度差值;6)将类差分度差值引入最大相关最小冗余MRMR算法进行二阶段特征词选取。优选地,所述步骤1)利用信息增益算法初步选取特征词具体为:特征词wi的信息增益IG(wi)计算如下:其中,m表示文本类别总数,Ct表示第t类文本,P(Ct)表示Ct类文本在总文本中出现的概率,P(wi)表示包含特征词wi的文本在总文本中出现的概率,P(Ct|wi)表示文本包含特征词wi并且属于Ct类的条件概率,表示不包含特征词wi的文本在总文本中的概率,表示文本不包含特征词wi但属于Ct类的条件概率,log(·)表示以2为底的对数,表示对表达式求和;按信息增益从大到小选取信息增益最大的部分特征词,得到特征词子集。优选地,所述步骤2)中计算步骤1)得到的特征词wi与文本类别集合C之间的互信息值,具体为:特征词wi与文本类别集合C之间的互信息值I(wi;C)为式中,m表示文本类别总数,Ct表示第t类文本,P(wi,Ct)表示Ct类文本中包含特征词wi的概率;表示Ct类文本中不包含特征词wi的概率;P(wi)表示包含特征词wi的文本在总文本中出现的概率;表示不包含特征词wi的文本在总文本中出现的概率;P(Ct)表示Ct类文本在总文本中出现的概率。优选地,所述步骤3)计算特征词之间的互信息值具体为:特征词wi和特征词wj之间的互信息值I(wi;wj)为:式中,P(wi,wj)表示同时包含特征词wi和特征词wj的文本在总文本中出现的概率,其中i≠j;表示包含特征词wi且不包含特征词wj的文本在总文本中出现的概率;表示包含特征词wj且不包含特征词wi的文本在总文本中出现的概率;P(wi)表示包含特征词wi的文本在总文本中出现的概率;P(wj)表示包含特征词wj的文本在总文本中出现的概率;表示不包含特征词wi的文本在总文本中出现的概率;表示不包含特征词wj的文本在总文本中出现的概率;表示既不包含特征词wi又不包含特征词wj的文本在总文本中出现的概率。优选地,所述步骤4)计算特征词之间的类差分度具体为:特征词wi的类差分度为:式中,βt表示特征词wi在Ct类中的类差分度;AC表示特征词wi的类间离散度;DCt表示特征词wi在Ct类中的类内耦合度;ft(wi)表示在Ct类中包含特征词wi的文本数;表示包含特征词wi的文本在每个类别中的平均数;n表示属于Ct类的文本总数;gp(wi)表示特征词wi在Ct类第p篇文本中的词频数;表示在Ct类所有文档中特征词wi的平均词频数,m表示文本类别总数。优选地,所述步骤5)计算类差分度差值具体为:计算特征词wi的类差分度差值α:式中,βmax1,βmax2分别表示特征词wi的类差分度最大值以及次大值,AC表示特征词wi的类间离散度,DCmin1,DCmin2分别表示特征词wi的类内耦合度最小值以及次小值,λ为常数。优选地,所述步骤6)将类差分度差值引入最大相关最小冗余MRMR算法进行二阶段特征选取具体为:选取第k个特征词的公式为:式中,α表示特征词wi的类差分度差值;I(wi;C)表示特征词wi与文本类别集合C之间的互信息值;D1表示通过信息增益初步选取的特征词子集;Sk-1表示二阶段特征已选择的特征词子集,其中k-1表示已选择的特征词个数;I(wi;w本文档来自技高网
...

【技术保护点】
1.基于信息增益与最大相关最小冗余二阶段特征选择方法,其特征在于,包括以下步骤:1)利用信息增益算法初步选取特征词,得到特征词子集;2)计算步骤1)得到的特征词与文本类别之间的互信息值;3)计算特征词之间的互信息值;4)计算特征词的类差分度;5)计算特征词的类差分度差值;6)将类差分度差值引入最大相关最小冗余MRMR算法进行二阶段特征词选取。

【技术特征摘要】
1.基于信息增益与最大相关最小冗余二阶段特征选择方法,其特征在于,包括以下步骤:1)利用信息增益算法初步选取特征词,得到特征词子集;2)计算步骤1)得到的特征词与文本类别之间的互信息值;3)计算特征词之间的互信息值;4)计算特征词的类差分度;5)计算特征词的类差分度差值;6)将类差分度差值引入最大相关最小冗余MRMR算法进行二阶段特征词选取。2.根据权利要求1所述的基于信息增益与最大相关最小冗余二阶段特征选择方法,其特征在于,所述步骤1)利用信息增益算法初步选取特征词具体为:特征词wi的信息增益IG(wi)计算如下:其中,m表示文本类别总数,Ct表示第t类文本,P(Ct)表示Ct类文本在总文本中出现的概率,P(wi)表示包含特征词wi的文本在总文本中出现的概率,P(Ct|wi)表示文本包含特征词wi并且属于Ct类的条件概率,表示不包含特征词wi的文本在总文本中的概率,表示文本不包含特征词wi但属于Ct类的条件概率,log(·)表示以2为底的对数,表示对表达式求和;按信息增益从大到小选取信息增益最大的部分特征词,得到特征词子集。3.根据权利要求1所述的基于信息增益与最大相关最小冗余二阶段特征选择方法,其特征在于,所述步骤2)中计算步骤1)得到的特征词wi与文本类别集合C之间的互信息值,具体为:特征词wi与文本类别集合C之间的互信息值I(wi;C)为式中,m表示文本类别总数,Ct表示第t类文本,P(wi,Ct)表示Ct类文本中包含特征词wi的概率;表示Ct类文本中不包含特征词wi的概率;P(wi)表示包含特征词wi的文本在总文本中出现的概率;表示不包含特征词wi的文本在总文本中出现的概率;P(Ct)表示Ct类文本在总文本中出现的概率。4.根据权利要求1所述的基于信息增益与最大相关最小冗余二阶段特征选择方法,其特征在于,所述步骤3)计算特征词之间的互信息值具体为:特征词wi和特征词wj之间的互信息值I(wi;wj)为:式中,P(wi,wj)表示同时包含特征词wi和特征词wj的文本在总文本中出现的概率,其中i≠j;表示包含特征词wi...

【专利技术属性】
技术研发人员:于舒娟张昀朱文峰何伟董茜茜金海红
申请(专利权)人:南京邮电大学南京邮电大学南通研究院有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1