The invention discloses a two-stage feature selection method based on information gain and maximum correlation and minimum redundancy. Firstly, feature words are selected according to information gain algorithm to obtain a subset of feature words; mutual information value between feature words and categories is calculated; mutual information value between feature words is calculated; and class difference degree of feature words is calculated. Computing the difference of class difference degree of feature words; introducing the difference of class difference into the maximum correlation minimum redundancy MRMRMR algorithm to select two-stage feature words; the present invention selects one-stage feature set by information gain, and introduces the idea of class difference degree into the maximum correlation minimum redundancy method as a two-stage feature extraction method, and then extracts it. Upgrading the accuracy of feature set selection, realizing the accurate selection of feature words, resolving the technical problems of poor classification effect, large amount of calculation and feature redundancy of existing feature extraction.
【技术实现步骤摘要】
基于信息增益与最大相关最小冗余二阶段特征选择方法
本专利技术属于机器学习及自然语言处理领域,尤其是涉及一种基于信息增益与最大相关最小冗余二阶段特征选择方法。
技术介绍
随着信息化时代的来临,能够获取到的信息数据量越来越大,特征维度也越来越高,尽管高维度能够让信息更加完整,但同时也增加了对分类器的要求,并且容易产生维度灾难的问题。文本的特征选取是从预处理过的文本中选择最具代表性的特征词集合,通过选择的特征子集达到降维的效果。传统的特征词选取的方法有信息增益(informationgain,IG),文本词频(documentfrequency,DF),χ2统计量(chisquarestatistic,CHI),词频-逆文本率(termfrequency-inversedocumentfrequency,TF-IDF)等。这些传统的特征选取方法仅仅考虑了特征词与文本类别之间以及文本与文本之间的关系,没有考虑特征词之间的关系,特征词之间可能存在冗余,即需要对特征词进行二次提取,去掉冗余。文献[姚海明,王娜,齐妙,李研,改进的最大相关最小冗余特征选择方法研究,计算机工程与应用,2014,50(9):116-122.]通过最大相关最小冗余算法(minimumredundancymaximumrelevancy,MRMR)选择特征子集,并且利用T检验(T-test),χ2算法(chisquarestatistic)等作为特征子集的评价函数。文献[陈素萍,谢丽聪,一种文本特征选择方法的研究,计算机技术与发展,2009,19(2):112-115.]比较了信息增益、期望交叉 ...
【技术保护点】
1.基于信息增益与最大相关最小冗余二阶段特征选择方法,其特征在于,包括以下步骤:1)利用信息增益算法初步选取特征词,得到特征词子集;2)计算步骤1)得到的特征词与文本类别之间的互信息值;3)计算特征词之间的互信息值;4)计算特征词的类差分度;5)计算特征词的类差分度差值;6)将类差分度差值引入最大相关最小冗余MRMR算法进行二阶段特征词选取。
【技术特征摘要】
1.基于信息增益与最大相关最小冗余二阶段特征选择方法,其特征在于,包括以下步骤:1)利用信息增益算法初步选取特征词,得到特征词子集;2)计算步骤1)得到的特征词与文本类别之间的互信息值;3)计算特征词之间的互信息值;4)计算特征词的类差分度;5)计算特征词的类差分度差值;6)将类差分度差值引入最大相关最小冗余MRMR算法进行二阶段特征词选取。2.根据权利要求1所述的基于信息增益与最大相关最小冗余二阶段特征选择方法,其特征在于,所述步骤1)利用信息增益算法初步选取特征词具体为:特征词wi的信息增益IG(wi)计算如下:其中,m表示文本类别总数,Ct表示第t类文本,P(Ct)表示Ct类文本在总文本中出现的概率,P(wi)表示包含特征词wi的文本在总文本中出现的概率,P(Ct|wi)表示文本包含特征词wi并且属于Ct类的条件概率,表示不包含特征词wi的文本在总文本中的概率,表示文本不包含特征词wi但属于Ct类的条件概率,log(·)表示以2为底的对数,表示对表达式求和;按信息增益从大到小选取信息增益最大的部分特征词,得到特征词子集。3.根据权利要求1所述的基于信息增益与最大相关最小冗余二阶段特征选择方法,其特征在于,所述步骤2)中计算步骤1)得到的特征词wi与文本类别集合C之间的互信息值,具体为:特征词wi与文本类别集合C之间的互信息值I(wi;C)为式中,m表示文本类别总数,Ct表示第t类文本,P(wi,Ct)表示Ct类文本中包含特征词wi的概率;表示Ct类文本中不包含特征词wi的概率;P(wi)表示包含特征词wi的文本在总文本中出现的概率;表示不包含特征词wi的文本在总文本中出现的概率;P(Ct)表示Ct类文本在总文本中出现的概率。4.根据权利要求1所述的基于信息增益与最大相关最小冗余二阶段特征选择方法,其特征在于,所述步骤3)计算特征词之间的互信息值具体为:特征词wi和特征词wj之间的互信息值I(wi;wj)为:式中,P(wi,wj)表示同时包含特征词wi和特征词wj的文本在总文本中出现的概率,其中i≠j;表示包含特征词wi...
【专利技术属性】
技术研发人员:于舒娟,张昀,朱文峰,何伟,董茜茜,金海红,
申请(专利权)人:南京邮电大学,南京邮电大学南通研究院有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。