The invention discloses a feature selection and evaluation method based on conditional mutual information, which is implemented in the following steps: for a data set, the correlation between each feature and class and the correlation between features and features are calculated. For the correlation calculation between features and classes, the minimum conditional correlation is used to compute the conditional mutual information between candidate features and classes under given selected features. There are two ways to calculate the correlation between features. One is to use conditional mutual information to calculate the conditional redundancy between candidate features and two selected features, and the other is to calculate the intra-class redundancy between candidate features and selected features. After calculating the above two relationships, we use greedy algorithm, such as forward iteration algorithm and backward iteration algorithm, to get feature subset.
【技术实现步骤摘要】
基于条件互信息的特征选择与评价方法
本专利技术属于数据挖掘方法
,涉及一种基于条件互信息的特征选择与评价方法。
技术介绍
随着互联网的发展和智能设备的普及,数据的容量呈指数增长。企业使用数据挖掘技术从数据中建立用户的需求模型,以此来完善产品的设计。数据容量的增多为数据挖掘提供了条件,但同时数据维数的增高会延长模型的建立时间,降低模型的预测能力。特征选择就是解决这两个问题的关键技术。特征选择是从原特征集中选出对模型建立有用的特征,将这些特征构成新的子集。一般情况,特征选择算法分为三类,包括嵌入式特征选择算法、包装式特征选择算法和过滤式特征选择算法。嵌入式特征选择算法,其特征选择的过程与分类的过程关系密切,在特征选择的过程中完成分类。包装式特征选择算法,通过调用分类器根据分类结果对特征进行评价。而过滤式特征选择算法,其特征选择的过程与分类器完全独立。所以过滤式特征选择在计算上是高效的。基于条件互信息的特征选择算法属于过滤式特征选择算法。不同于其他的度量,例如基于距离,基于卡方检验等。互信息从信息学的角度将特征与特征之间的关系以及特征与类之间的关系解释为信息量,传 ...
【技术保护点】
1.基于条件互信息的特征选择与评价方法,其特征在于,具体操作步骤如下:步骤1.对数据集进行预处理,得到预处理数据集;步骤2.对所述预处理数据集进行离散化处理,预处理数据集中的所有特征值划分在不同的特征等级中;步骤3.计算步骤2离散化处理后的数据集中所有特征X与类变量Y之间的重要程度;步骤4.根据步骤3计算出的特征与类之间的重要程度I(X;Y)后,选择重要程度最大的特征作为重要特征,将这个重要特征从原特征集合中删除,添加到候选特征集合中,作为第一个被选入候选特征集的候选特征,再计算其他候选特征。
【技术特征摘要】
1.基于条件互信息的特征选择与评价方法,其特征在于,具体操作步骤如下:步骤1.对数据集进行预处理,得到预处理数据集;步骤2.对所述预处理数据集进行离散化处理,预处理数据集中的所有特征值划分在不同的特征等级中;步骤3.计算步骤2离散化处理后的数据集中所有特征X与类变量Y之间的重要程度;步骤4.根据步骤3计算出的特征与类之间的重要程度I(X;Y)后,选择重要程度最大的特征作为重要特征,将这个重要特征从原特征集合中删除,添加到候选特征集合中,作为第一个被选入候选特征集的候选特征,再计算其他候选特征。2.根据权利要求1所述的基于条件互信息的特征选择与评价方法,其特征在于,步骤1预处理的步骤为:数据集中的每一列为一个特征,每个特征有n行,将每个特征的取值范围压缩到0和1之间,得到预处理后的特征X。3.根据权利要求2所述的基于条件互信息的特征选择与评价方法,其特征在于,步骤2所述离散化过程如下:步骤2.1,对特征X中的所有元素进行升序排序得到X’;步骤2.2,分别取X’中第n/5,第2*n/5,第3*n/5,第4*n/5,第5*n/5位置的元素;步骤2.3,定义k为特征等级,如果0<=X[i]<X’[n/5],那么k=0;如果X’[n/5]<=X[i]<X’[2*n/5],那么k=1;......如果X’[4*n/5]<=X[i]<=X’[5*n/5],则k=4;即特征X中所有元素都被划分为在不同的特征等级中,其中,k∈{0,1,2,3,4},i代表特征X的第i个元素,X[i]表示特征X的第i个特征值。4.根据权利...
【专利技术属性】
技术研发人员:周红芳,张尧,张英杰,刘虹江,温婧,韩霜,
申请(专利权)人:西安理工大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。