一种基于属性条件冗余的特征选择方法技术

技术编号:29586941 阅读:139 留言:0更新日期:2021-08-06 19:46
本发明专利技术公开了一种基于属性条件冗余的特征选择方法,包括:步骤1、对数据集进行预处理;步骤2、将经过预处理的数据集进行划分为训练数据集和测试数据集;步骤3、计算训练数据集中每个目标特征与类标签之间的互信息值,选择使得当前互信息值最大的目标特征,将该目标特征从原始数据集中删除,加入初始为空的集合S中,然后根据基于属性条件冗余的特征选择算法迭代进行特征选择,将每次迭代选择的特征加入集合S中,经过迭代,最终得到大小为m的特征子集。本发明专利技术中使用冗余和属性条件冗余这两项衡量特征的冗余信息,更加准确的剔除一些冗余特征,提高测试数据的分类正确性。

【技术实现步骤摘要】
一种基于属性条件冗余的特征选择方法
本专利技术属于数据挖掘
,涉及一种基于属性条件冗余的特征选择方法。
技术介绍
由于计算机技术,数据存储容量的飞速发展,数据处理能力已经有了质的飞跃,各种各样的大数据被应用于科学研究和社会生活。但是,数据维度的不断增加导致数据处理越来越困难。研究数据降维技术就显得格外紧迫和重要。经过降维后的数据不仅特征维数有效降低,而且缩减了该特征数据存储所需的空间,同时也降低了获取主要特征之间的关键信息的难度,因为保留了关键特征,也降低了后续算法模型搜索关键特征的时间成本。降维技术分为两类:特征选择和特征提取。经过特征提取的新特征与原始特征相比物理意义可能相差甚远,甚至截然不同,提取到的特征可解释性弱,这在很多问题中难以接受。而特征选择挑选出的特征,其物理意义一如既往,可解释强,优势明显,在解决分类问题上具有重大意义。特征选择中基于互信息的特征选择方法非常流行,它可以衡量特征之间的线性和非线性关系。基于互信息的特征选择通过使用互信息度量特征与类之间的相关性,特征与特征之间的冗余性进行特征选择。许多特征选择算法通过最大化特征与类之间的相关性,最小化特征之间的冗余性进行子集选择。这些特征选择算法都是MIFS特征选择算法框架的变式,但此框架在度量特征间冗余时,仅使用冗余性来度量。基于此,我们的算法在此框架的缺陷上进行改进,通过使用冗余性和特征条件冗余项,我们可以过滤掉更多包含冗余信息的特征,选择的特征子集更具有代表性,进一步提高分类准确率。
技术实现思路
本专利技术的目的是提供一种基于属性条件冗余的特征选择方法,解决了现有特征选择框架中存在的无法度量三向特征交互,选择出的特征子集包含的冗余信息较多的问题。本专利技术所采用的技术方案是,一种基于属性条件冗余的特征选择方法,具体按照以下步骤实施:步骤1、对数据集进行预处理;步骤2、将经过预处理的数据集进行划分为训练数据集和测试数据集;步骤3、计算训练数据集中每个目标特征与类标签之间的互信息值,选择使得当前互信息值最大的目标特征,将该目标特征从原始数据集中删除,加入初始为空的集合S中,然后根据基于属性条件冗余的特征选择算法迭代进行特征选择,将每次迭代选择的特征加入集合S中,经过迭代,最终得到大小为m的特征子集。本专利技术的特点还在于:步骤1中预处理包括标准化处理和离散化处理。标准化处理具体为,使用min-max标准化,将特征A的一个原始值x通过min-max标准化映射成在区间[0,1]中的值x',其公式如下:离散化处理具体采用等宽法对经过标准化后的数据集进行处理。步骤2具体采用十折交叉验证法将经过预处理的数据集划分为训练数据集和测试数据集。步骤3中基于属性条件冗余的特征选择算法公式如下:其中,Xm为目标特征,C为训练数据集的类标签,|S|为集合S的大小,Xi,Xj为原始数据集中被删除的目标特征,I(Xm;C)表示目标特征Xm和类标签C之间的相关性,I(Xm;Xj)表示被删除的目标特征Xj和目标特征Xm之间的冗余性,I(Xm;Xi|Xj)表示给定Xj条件下,Xm和Xi的冗余性。本专利技术的有益效果是:1.本专利技术基于属性条件冗余的特征选择算法与其余六种经典的特征选择算法(MIM算法、CIFE算法、JMI算法、mRMR算法、RelaxFS算法和CFR算法)进行对比,在不同分类器上的平均分类准确率都优于这六种特征选择算法,这是因为本算法引入特征条件冗余项进行特征选择,可以过滤掉更多包含冗余信息的特征;2.本专利技术基于属性条件冗余的特征选择算法与其余六种经典的特征选择算法(MIM算法、CIFE算法、JMI算法、mRMR算法、RelaxFS算法和CFR算法)进行对比,在不同分类器上的平均宏观F1值都优于这六种特征选择算法,这是因为本算法引入特征条件冗余项进行特征选择,可以选择出更好的特征子集。附图说明图1是本专利技术一种基于属性条件冗余的特征选择方法的流程图;图2是通过本专利技术一种基于属性条件冗余的特征选择方法和现有特征选择方法得到的特征在SVM分类器中的平均分类准确率结果对比图;图3是通过本专利技术一种基于属性条件冗余的特征选择方法和现有特征选择方法得到的特征在KNN分类器中的平均分类准确率结果对比图;图4是通过本专利技术一种基于属性条件冗余的特征选择方法和现有特征选择方法得到的特征在SVM和KNN分类器中的平均分类准确率结果对比图;图5是通过本专利技术一种基于属性条件冗余的特征选择方法和现有特征选择方法得到的特征在SVM分类器中的平均宏观F1值结果对比图;图6是通过本专利技术一种基于属性条件冗余的特征选择方法和现有特征选择方法得到的特征在KNN分类器中的平均宏观F1值结果对比图;图7是通过本专利技术一种基于属性条件冗余的特征选择方法和现有特征选择方法得到的特征在SVM和KNN分类器上的平均宏观F1值对比图;具体实施方式下面结合附图和具体实施方式对本专利技术进行详细说明。定义1熵:在统计学中,熵是对随机变量的不确定性的一种度量,一个事件发生的不确定性程度越大,熵越大,信息量越大。熵的定义如下:其中Y表示随机变量,y是Y的可能值,p(y)为Y的概率密度函数。如果把Y看作是类属性,那么基于互信息的特征选择就是通过选择一些特征来降低类的不确定性,所以需要研究特征对类的影响。定义2条件熵:条件熵对随机变量不确定性的衡量是建立在某个变量已知的前提下。条件熵的定义如下:其中p(y|x)表示在给定x条件下y的概率分布,p(x,y)表示x和y的联合概率分布。H(Y|X)的值越小,意味着X可以提供更多的信息使得Y变得稳定。定义3互信息:两个变量间共享的信息定义为互信息,是一种非常重要的度量方法,可以度量随机变量之间的线性和非线性关系。是随机变量之间依赖程度的度量。互信息值越大,两个变量之间依赖程度越高。对于两个随机变量X和Y,它们的联合概率密度函数为p(X,Y),边缘概率密度函数为p(X)和p(Y)。互信息I(X;Y)为联合分布p(X,Y)和乘积分布p(X)p(Y)之间的相对熵,即:定义4条件互信息:条件互信息用来度量在给定一个变量的条件下,另外两个变量之间的独立程度,条件互信息的定义如下:定义5准确率:指在一定实验条件下多个测定值中满足限定条件的测定值所占的比例。用来同时表示测量结果中系统误差和随机误差大小的程度,多次测量值的平均值与真值的接近程度。准确率(accuracy)计算公式如下:定义6F1值:综合精确率和召回率两个指标用于反映整体的评估指标,精确率评估预测正例的查准率,召回率评估真实正例的查全率。P为查准率R为查全率计算公式如下:定义7宏观F1值:F1值适用于二分类问题,对于多分类问题我们使用宏观F1值来评估,Macro_P为宏查准率Macro_R为宏查全率计算公式如下:本文档来自技高网...

【技术保护点】
1.一种基于属性条件冗余的特征选择方法,其特征在于,具体按照以下步骤实施:/n步骤1、对数据集进行预处理;/n步骤2、将经过预处理的数据集进行划分为训练数据集和测试数据集;/n步骤3、计算训练数据集中每个目标特征与类标签之间的互信息值,选择使得当前互信息值最大的目标特征,将该目标特征从原始数据集中删除,加入初始为空的集合S中,然后根据基于属性条件冗余的特征选择算法迭代进行特征选择,将每次迭代选择的特征加入集合S中,经过迭代,最终得到大小为m的特征子集。/n

【技术特征摘要】
1.一种基于属性条件冗余的特征选择方法,其特征在于,具体按照以下步骤实施:
步骤1、对数据集进行预处理;
步骤2、将经过预处理的数据集进行划分为训练数据集和测试数据集;
步骤3、计算训练数据集中每个目标特征与类标签之间的互信息值,选择使得当前互信息值最大的目标特征,将该目标特征从原始数据集中删除,加入初始为空的集合S中,然后根据基于属性条件冗余的特征选择算法迭代进行特征选择,将每次迭代选择的特征加入集合S中,经过迭代,最终得到大小为m的特征子集。


2.根据权利要求1所述的一种基于属性条件冗余的特征选择方法,其特征在于,所述步骤1中预处理包括标准化处理和离散化处理。


3.根据权利要求2所述的一种基于属性条件冗余的特征选择方法,其特征在于,所述标准化处理具体为,使用min-max标准化,将特征A的一个原始值x通过min-max标准化映射成在区间[0,1]中的值x',其公...

【专利技术属性】
技术研发人员:周红芳朱柔柔
申请(专利权)人:西安理工大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1