基于相关系数的互信息特征选择方法技术

技术编号:25757614 阅读:46 留言:0更新日期:2020-09-25 21:06
本发明专利技术公开了一种基于相关系数的互信息特征选择方法,具体按照以下步骤实施:对于一个数据集,计算每个特征与类之间的相关性以及特征与特征之间的相关性。关于特征与类之间的相关性计算,使用条件相关,在给定已选特征条件下计算候选特征与类之间条件互信息。关于特征与特征之间的相关性计算,本发明专利技术是计算候选特征与已选特征的互信息作为冗余性的度量,同时对该冗余项加入了相关系数作为权重,该相关系数也是对候选特征与已选特征之间的相关性进行度量。本发明专利技术中的相关项与冗余项均使用了最小化原则。在计算以上两种关系后,使用贪心算法,例如前向迭代算法,后向迭代算法等得到特征子集。

【技术实现步骤摘要】
基于相关系数的互信息特征选择方法
本专利技术属于数据挖掘方法
,涉及一种基于相关系数的互信息特征选择方法。
技术介绍
随着互联网技术的不断发展及其相关移动设备的普及,互联网上的数据量每天都在以几何级数的增长。每天互联网用户的所有出行数据,健康数据,购物数据等都会上传到网络,同样互联网上的文本数据,音频数据,视频数据也会传送到用户的移动设备上,所有使用互联网的用户既在产生数据也在消费数据。当互联网上数据极具增长时,这些数据逐渐表现出四个特点:数据体量大,数据类型繁多,数据价值密度低和数据处理速度快。若是无法从这些庞大的数据中快速找到有价值的信息,那么这些数据是毫无意义的。模式识别和数据挖掘的研究热点就是从庞大数据中挖掘有价值的信息。在已有数据上寻找规律,借用数学手段建立模型,以此完成对数据的分类或者推荐。由于数据的信息是由特征刻画的,所以数据集的特征数量越多,对数据的表示越详细,但是当特征非常多的时候,有些特征会提供相同的信息,这些特征就是冗余特征。冗余特征数量越多,会增加模型训练时间,减慢数据挖掘过程,使得最终建立的模型变得复杂。复杂的模型虽然可以很好的解释现有的数据,但是泛化能力差。所以在模式识别和数据挖掘工作中需要进行特征降维,即在不影响模型精确度的前提下将高维数据降为低维数据。特征降维分为特征选择和特征提取。两种技术最终结果都是降低了特征的维数,区别在于特征提取使用数学的方法对某些特征进行融合产生了新的特征,新的特征只具有数学含义,难以找到其现实意义。而特征选择不会产生新的特征,仅仅是通过评价函数对特征进行评价,选择出重要的特征。按照特征选择过程与分类器之间的关系,特征选择方法被分为过滤式特征选择法,包装式特征选择方法和嵌入式特征选择方法三大类。嵌入式特征选择方法在选择特征的过程中完成分类。包装式特征选择方法是使用分类算法对特征选择得到的特征子集进行评价。过滤式特征选择方法是独立于分类器的,不会使用分类器来判断是否应该选择某个特征,所以相比于前两种特征选择方法,过滤式特征选择方法简单高效,并且可以作为数据挖掘过程中的一个预处理步骤。过滤式特征选择方法主要包括子集生成和子集评价,此处子集评价主要是根据特征与类之间的关系和特征与特征之间的关系对该特征进行打分。常用的度量工具有距离度量,卡方统计,互信息等。基于相关系数的互信息特征选择方法属于过滤式特征选择方法,并且使用了互信息作为度量工具进行子集评价。互信息从信息学的角度将特征与特征之间关系和特征与类之间的关系解释为信息量。与已有的基于互信息的特征选择方法不同,本文提出了基于相关系数的互信息特征选择方法,条件互信息作为特征与类之间相关性描述较互信息更加具体,而通过加入相关系数的方式可以更好的调节评价函数中的特征相关项和特征冗余项的重要程度,从而达到更好的分类效果。
技术实现思路
本专利技术的目的是提供一种基于相关系数的互信息特征选择方法,解决了现有技术中存在的基于互信息的特征选择方法分类准确率低的问题。本专利技术所采用的技术方案是,一种基于相关系数的互信息特征选择方法,具体按照以下步骤实施:步骤1.对原数据集进行预处理,对原数据进行标准化处理,得到标准化处理后的数据集;步骤2.对步骤1所得标准化处理后的数据集进行离散化处理,离散化处理后的数据集中的所有特征值被划分在不同的特征等级中;步骤3.计算步骤2离散化处理后的数据集中所有特征X与类变量Y之间的相关程度,即所有特征X与类变量Y之间的互信息I(X;Y);步骤4.根据步骤3计算出的特征与类之间的相关程度I(X;Y)后,选择相关程度I(X;Y)中最大的特征作为重要特征,将重要特征从原特征集合中删除,并添加到候选特征集合中,作为第一个被选入候选特征集的候选特征,再计算其他候选特征。本专利技术的特点还在于:步骤1具体按照以下步骤实施:数据集中的每一列为一个特征,每个特征有n行,使用Min-max标准化,将每个特征的取值范围压缩到0和1之间,公式如下:式(1)中max是数据集中每列特征中选择的绝对值的最大值,然后使用每列的每个值除以最大值即可,从而得到预处理后的特征X;步骤2具体按照以下步骤实施:步骤2离散化过程如下:步骤2.1,对步骤1预处理后的特征X中的所有元素进行升序排序得到X’;步骤2.2,分别取步骤2.1所得X’中第n/5,第2*n/5,第3*n/5,第4*n/5,第5*n/5位置的元素;步骤2.3,定义k为特征等级,0<=X[i]<X’[n/5],则k=1,X’[n/5]<=X[i]<X’[2*n/5],则k=2,X’[2*n/5]<=X[i]<X’[3*n/5],则k=3,X’[3*n/5]<=X[i]<X’[4*n/5],则k=4,X’[4*n/5]<=X[i]<=X’[5*n/5],则k=5,即特征X中所有元素都被划分在不同的特征等级中,其中,k∈{1,2,3,4,5},i代表特征X的第i个元素,X[i]表示特征X的第i个特征值。步骤3计算特征X与类变量Y之间的相关程度计算公式如下:式(2)中,类变量Y指的是原数据集中的标签列,D是相对熵,X表示特征,x是X的取值,Y表示类变量,y是Y的取值,p(y)是y的概率分布,p(x)是x概率分布,p(x,y)表示x和y同时发生时候的联合概率分布。式(3)中,N(X=x)表示X取值为x的个数,N(X≠x)表示不包含X取值为x的个数。式(4)中,N(Y=y)表示Y取值为y的个数,N(Y≠y)表示不包含Y取值为y的个数。步骤4计算其他候选特征的具体步骤如下:当候选特征集合中的特征个数大于1的时候,使用前向迭代算法选择m-1个重要特征,计算候选特征在特征集合中的重要程度,每一次迭代,选择当前阶段最重要的特征,然后把重要的特征从原特征集中删除,并加入候选特征集S中,经过m-1次迭代,最终得到大小为m的特征子集,而计算特征重要程度的评价标准CCMI(Featureselectionbasedonmutualinformationwithcorrelationcoefficient,基于相关系数的互信息特征选择)为:式(5)中,Xm为目标特征,Xs为候选特征集S中的某个已选特征,类C指的是数据集中标签列,I(Xm;C|Xs)表示给定已选特征Xs条件下,目标特征Xm和类C的相关性,I(Xm;Xs)表示已选特征Xs和目标特征Xm之间的冗余。表示候选特征Xm与已选择特征Xs之间的相关系数:式(6)中,D(Xm)是Xm的方差,D(Xs)是Xs的方差。Cov(Xm,Xs)表示候选特征Xm与已选择特征Xs之间的协方差:Cov(Xm,Xs)=E{[Xm-E(Xm)][Xs-E(Xs)]}(7)式(7)中,E是随机变量的数学期望本文档来自技高网
...

【技术保护点】
1.一种基于相关系数的互信息特征选择方法,其特征在于,具体按照以下步骤实施:/n步骤1.对原数据集进行预处理,对原数据进行标准化处理,得到标准化处理后的数据集;/n步骤2.对步骤1所得标准化处理后的数据集进行离散化处理,离散化处理后的数据集中的所有特征值被划分在不同的特征等级中;/n步骤3.计算步骤2离散化处理后的数据集中所有特征X与类变量Y之间的相关程度,即所有特征X与类变量Y之间的互信息I(X;Y);/n步骤4.根据步骤3计算出的特征与类之间的相关程度I(X;Y)后,选择所述相关程度I(X;Y)中最大的特征作为重要特征,将所述重要特征从原特征集合中删除,并添加到候选特征集合中,作为第一个被选入候选特征集的候选特征,再计算其他候选特征。/n

【技术特征摘要】
1.一种基于相关系数的互信息特征选择方法,其特征在于,具体按照以下步骤实施:
步骤1.对原数据集进行预处理,对原数据进行标准化处理,得到标准化处理后的数据集;
步骤2.对步骤1所得标准化处理后的数据集进行离散化处理,离散化处理后的数据集中的所有特征值被划分在不同的特征等级中;
步骤3.计算步骤2离散化处理后的数据集中所有特征X与类变量Y之间的相关程度,即所有特征X与类变量Y之间的互信息I(X;Y);
步骤4.根据步骤3计算出的特征与类之间的相关程度I(X;Y)后,选择所述相关程度I(X;Y)中最大的特征作为重要特征,将所述重要特征从原特征集合中删除,并添加到候选特征集合中,作为第一个被选入候选特征集的候选特征,再计算其他候选特征。


2.根据权利要求1所述的一种基于相关系数的互信息特征选择方法,其特征在于,所述步骤1具体按照以下步骤实施:
数据集中的每一列为一个特征,每个特征有n行,使用Min-max标准化,将每个特征的取值范围压缩到0和1之间,公式如下:



式(1)中|max|是数据集中每列特征中选择的绝对值的最大值,然后使用每列的每个值除以所述最大值即可,从而得到预处理后的特征X。


3.根据权利要求2所述的一种基于相关系数的互信息特征选择方法,其特征在于,所述步骤2离散化过程具体按照以下步骤实施:
步骤2.1,对步骤1预处理后的特征X中的所有元素进行升序排序得到X’;
步骤2.2,分别取步骤2.1所得X’中第n/5,第2*n/5,第3*n/5,第4*n/5,第5*n/5位置的元素;
步骤2.3,定义k为特征等级,
0<=X[i]<X’[n/5],则k=1,
X’[n/5]<=X[i]<X’[2*n/5],则k=2,
X’[2*n/5]<=X[i]<X’[3*n/5],则k=3,
X’[3*n/5]<=X[i]<X’[4*n/5],则k=4,
X’[4*n/5]<=X[i]<=X’[5*n/5],则k=5,
即特征X中所有元素都被划分在不同的特征等级中,
其中,k∈{1,2,3,4,5},i代表特征X的第i个元素,X[i]表示特征X的第i个特征值。


4.根据权...

【专利技术属性】
技术研发人员:周红芳王西茜
申请(专利权)人:西安理工大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1