一种基于特征交互性的特征选择方法技术

技术编号:28038231 阅读:27 留言:0更新日期:2021-04-09 23:20
本发明专利技术公开了一种基于特征交互性的特征选择方法,包括:对数据集进行预处理;将预处理后的数据集分为训练集和测试集;将训练集中SU(f

【技术实现步骤摘要】
一种基于特征交互性的特征选择方法
本专利技术属于
,涉及一种基于特征交互性的特征选择方法。
技术介绍
信息化的今天,我们的生活之中充斥着越来越多的数据,虽然这些大规模、高维度的数据为我们提供了越来越丰富的信息,但在这样的数据集上建立有效的预测模型变得越来越困难。同时,大量的不相关和冗余特征会对数据挖掘模型产生负面影响,从而降低模型的性能的应用。因此,我们需要剔除数据当中的冗余特征,并保留相关性、交互性较大的特征,降低无关冗余特征对于样本预测的影响,提升预测的正确性及效率。特征选择是数据挖掘中非常重要的一个步骤,通过对原始数据进行特征选择,可以剔除不相关或冗余的特征,降低了由于不相关或冗余特征这些无用特征引入的噪声影响。并删除这些无用特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。特征选择过程通过识别和删除尽可能多的不相关和冗余特征来提高数据质量,这是由于不相关特征对于提高后期学习算法的预测精度是无用的甚至是有害的,而冗余特征由于携带的信息已蕴含于其他特征中而不会得到更优的预测模型。目前常见的特征选择方法大致本文档来自技高网...

【技术保护点】
1.一种基于特征交互性的特征选择方法,其特征在于,包括以下步骤:/n步骤1、建立数据集Data_set={d

【技术特征摘要】
1.一种基于特征交互性的特征选择方法,其特征在于,包括以下步骤:
步骤1、建立数据集Data_set={d1,d2,d3,...dp},o=1,2,3...p,所述数据集中包括类别C={c1,c2,c3,...cm},i=1,2,3...m、特征F={f1,f2,f3,...fn},j=1,2,3,...n,对所述数据集进行预处理;
步骤2、将预处理后的所述数据集分为训练集和测试集;
步骤3、将所述训练集中SU(fi,C)>0的特征并入Slist子集中,先对所述Slist子集中强冗余特征进行剔除,得到子集G,再采用子集评价函数对所述子集G中不相关特征进行剔除,得到特征子集;
步骤4、将所述特征子集输入分类器中建立分类器模型;
步骤5、通过测试集对所述分类器模型进行测试。


2.根据权利要求1所述的一种基于特征交互性的特征选择方法,其特征在于,还包括,步骤6、通过评估指标对所述分类器模型的测试结果进行评估。


3.根据权利要求1所述的一种基于特征交互性的特征选择方法,其特征在于,步骤1所述的预处理过程为:先对所述数据集中的缺失值进行补全,再对所述数据集中数据进行标准化处理,然后使用等距法对所述数据集中连续型特征值进行离散化操作。


4.根据权利要求1所述的一种基于特征交互性的特征选择方法,其特征在于,步骤2中采用十折交叉验证将预处理后的数据集分为训练集和测试集。


5.根据权利要求1所述的一种基于特征交互性的特征选择方法,其特征在于,步骤3包括以下步骤:
步骤3.1、通过下式计算训练集中每个特征fi与类别C之间SU(fi,C)值:



步骤3.2、将SU(fi,C)>0的特征fi形成Slist子集,并从大到小排序;
步骤3.3、循环判断所述Slist子集中的每个特征fi是否为强冗余特征,并将其剔除,得到子集G;
步骤3.4、采用子集评价函...

【专利技术属性】
技术研发人员:周红芳安蕾
申请(专利权)人:西安理工大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1