基于相关系数的互信息特征选择方法技术

技术编号:25757614 阅读:57 留言:0更新日期:2020-09-25 21:06
本发明专利技术公开了一种基于相关系数的互信息特征选择方法,具体按照以下步骤实施:对于一个数据集,计算每个特征与类之间的相关性以及特征与特征之间的相关性。关于特征与类之间的相关性计算,使用条件相关,在给定已选特征条件下计算候选特征与类之间条件互信息。关于特征与特征之间的相关性计算,本发明专利技术是计算候选特征与已选特征的互信息作为冗余性的度量,同时对该冗余项加入了相关系数作为权重,该相关系数也是对候选特征与已选特征之间的相关性进行度量。本发明专利技术中的相关项与冗余项均使用了最小化原则。在计算以上两种关系后,使用贪心算法,例如前向迭代算法,后向迭代算法等得到特征子集。

【技术实现步骤摘要】
基于相关系数的互信息特征选择方法
本专利技术属于数据挖掘方法
,涉及一种基于相关系数的互信息特征选择方法。
技术介绍
随着互联网技术的不断发展及其相关移动设备的普及,互联网上的数据量每天都在以几何级数的增长。每天互联网用户的所有出行数据,健康数据,购物数据等都会上传到网络,同样互联网上的文本数据,音频数据,视频数据也会传送到用户的移动设备上,所有使用互联网的用户既在产生数据也在消费数据。当互联网上数据极具增长时,这些数据逐渐表现出四个特点:数据体量大,数据类型繁多,数据价值密度低和数据处理速度快。若是无法从这些庞大的数据中快速找到有价值的信息,那么这些数据是毫无意义的。模式识别和数据挖掘的研究热点就是从庞大数据中挖掘有价值的信息。在已有数据上寻找规律,借用数学手段建立模型,以此完成对数据的分类或者推荐。由于数据的信息是由特征刻画的,所以数据集的特征数量越多,对数据的表示越详细,但是当特征非常多的时候,有些特征会提供相同的信息,这些特征就是冗余特征。冗余特征数量越多,会增加模型训练时间,减慢数据挖掘过程,使得最终建立的模型变得复杂。复杂的模本文档来自技高网...

【技术保护点】
1.一种基于相关系数的互信息特征选择方法,其特征在于,具体按照以下步骤实施:/n步骤1.对原数据集进行预处理,对原数据进行标准化处理,得到标准化处理后的数据集;/n步骤2.对步骤1所得标准化处理后的数据集进行离散化处理,离散化处理后的数据集中的所有特征值被划分在不同的特征等级中;/n步骤3.计算步骤2离散化处理后的数据集中所有特征X与类变量Y之间的相关程度,即所有特征X与类变量Y之间的互信息I(X;Y);/n步骤4.根据步骤3计算出的特征与类之间的相关程度I(X;Y)后,选择所述相关程度I(X;Y)中最大的特征作为重要特征,将所述重要特征从原特征集合中删除,并添加到候选特征集合中,作为第一个被...

【技术特征摘要】
1.一种基于相关系数的互信息特征选择方法,其特征在于,具体按照以下步骤实施:
步骤1.对原数据集进行预处理,对原数据进行标准化处理,得到标准化处理后的数据集;
步骤2.对步骤1所得标准化处理后的数据集进行离散化处理,离散化处理后的数据集中的所有特征值被划分在不同的特征等级中;
步骤3.计算步骤2离散化处理后的数据集中所有特征X与类变量Y之间的相关程度,即所有特征X与类变量Y之间的互信息I(X;Y);
步骤4.根据步骤3计算出的特征与类之间的相关程度I(X;Y)后,选择所述相关程度I(X;Y)中最大的特征作为重要特征,将所述重要特征从原特征集合中删除,并添加到候选特征集合中,作为第一个被选入候选特征集的候选特征,再计算其他候选特征。


2.根据权利要求1所述的一种基于相关系数的互信息特征选择方法,其特征在于,所述步骤1具体按照以下步骤实施:
数据集中的每一列为一个特征,每个特征有n行,使用Min-max标准化,将每个特征的取值范围压缩到0和1之间,公式如下:



式(1)中|max|是数据集中每列特征中选择的绝对值的最大值,然后使用每列的每个值除以所述最大值即可,从而得到预处理后的特征X。


3.根据权利要求2所述的一种基于相关系数的互信息特征选择方法,其特征在于,所述步骤2离散化过程具体按照以下步骤实施:
步骤2.1,对步骤1预处理后的特征X中的所有元素进行升序排序得到X’;
步骤2.2,分别取步骤2.1所得X’中第n/5,第2*n/5,第3*n/5,第4*n/5,第5*n/5位置的元素;
步骤2.3,定义k为特征等级,
0<=X[i]<X’[n/5],则k=1,
X’[n/5]<=X[i]<X’[2*n/5],则k=2,
X’[2*n/5]<=X[i]<X’[3*n/5],则k=3,
X’[3*n/5]<=X[i]<X’[4*n/5],则k=4,
X’[4*n/5]<=X[i]<=X’[5*n/5],则k=5,
即特征X中所有元素都被划分在不同的特征等级中,
其中,k∈{1,2,3,4,5},i代表特征X的第i个元素,X[i]表示特征X的第i个特征值。


4.根据权...

【专利技术属性】
技术研发人员:周红芳王西茜
申请(专利权)人:西安理工大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1