一种基于属性条件冗余的特征选择方法技术

技术编号：29586941 阅读：139 留言：0更新日期：2021-08-06 19:46

本发明专利技术公开了一种基于属性条件冗余的特征选择方法，包括：步骤1、对数据集进行预处理；步骤2、将经过预处理的数据集进行划分为训练数据集和测试数据集；步骤3、计算训练数据集中每个目标特征与类标签之间的互信息值，选择使得当前互信息值最大的目标特征，将该目标特征从原始数据集中删除，加入初始为空的集合S中，然后根据基于属性条件冗余的特征选择算法迭代进行特征选择，将每次迭代选择的特征加入集合S中，经过迭代，最终得到大小为m的特征子集。本发明专利技术中使用冗余和属性条件冗余这两项衡量特征的冗余信息，更加准确的剔除一些冗余特征，提高测试数据的分类正确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于属性条件冗余的特征选择方法
本专利技术属于数据挖掘
，涉及一种基于属性条件冗余的特征选择方法。
技术介绍
由于计算机技术，数据存储容量的飞速发展，数据处理能力已经有了质的飞跃，各种各样的大数据被应用于科学研究和社会生活。但是，数据维度的不断增加导致数据处理越来越困难。研究数据降维技术就显得格外紧迫和重要。经过降维后的数据不仅特征维数有效降低，而且缩减了该特征数据存储所需的空间，同时也降低了获取主要特征之间的关键信息的难度，因为保留了关键特征，也降低了后续算法模型搜索关键特征的时间成本。降维技术分为两类:特征选择和特征提取。经过特征提取的新特征与原始特征相比物理意义可能相差甚远，甚至截然不同，提取到的特征可解释性弱，这在很多问题中难以接受。而特征选择挑选出的特征，其物理意义一如既往，可解释强，优势明显，在解决分类问题上具有重大意义。特征选择中基于互信息的特征选择方法非常流行，它可以衡量特征之间的线性和非线性关系。基于互信息的特征选择通过使用互信息度量特征与类之间的相关性，特征与特征之间的冗余性进行特征选择。许多特征选择算法通过最大化特征与类之间的相关性，最小化特征之间的冗余性进行子集选择。这些特征选择算法都是MIFS特征选择算法框架的变式，但此框架在度量特征间冗余时，仅使用冗余性来度量。基于此，我们的算法在此框架的缺陷上进行改进，通过使用冗余性和特征条件冗余项，我们可以过滤掉更多包含冗余信息的特征，选择的特征子集更具有代表性，进一步提高分类准确率。
技术实现思路
本专利技术的目...

【技术保护点】
1.一种基于属性条件冗余的特征选择方法，其特征在于，具体按照以下步骤实施：/n步骤1、对数据集进行预处理；/n步骤2、将经过预处理的数据集进行划分为训练数据集和测试数据集；/n步骤3、计算训练数据集中每个目标特征与类标签之间的互信息值，选择使得当前互信息值最大的目标特征，将该目标特征从原始数据集中删除，加入初始为空的集合S中，然后根据基于属性条件冗余的特征选择算法迭代进行特征选择，将每次迭代选择的特征加入集合S中，经过迭代，最终得到大小为m的特征子集。/n

【技术特征摘要】
1.一种基于属性条件冗余的特征选择方法，其特征在于，具体按照以下步骤实施：
步骤1、对数据集进行预处理；
步骤2、将经过预处理的数据集进行划分为训练数据集和测试数据集；
步骤3、计算训练数据集中每个目标特征与类标签之间的互信息值，选择使得当前互信息值最大的目标特征，将该目标特征从原始数据集中删除，加入初始为空的集合S中，然后根据基于属性条件冗余的特征选择算法迭代进行特征选择，将每次迭代选择的特征加入集合S中，经过迭代，最终得到大小为m的特征子集。

2.根据权利要求1所述的一种基于属性条件冗余的特征选择方法，其特征在于，所述步骤1中预处理包括标准化处理和离散化处理。

3.根据权利要求2所述的一种基于属性条件冗余的特征选择方法，其特征在于，所述标准化处理具体为，使用min-max标准化，将特征A的一个原始值x通过min-max标准化映射成在区间[0,1]中的值x'，其公...

【专利技术属性】
技术研发人员：周红芳，朱柔柔，
申请(专利权)人：西安理工大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人