The present invention provides a new method to choose the hybrid feature KDE based on conditional entropy, this method proposes a hybrid feature of KDE probability and mixing characteristics of KDE entropy, in discrete and continuous features will be unified in the characteristics of effective KDE entropy under continuous data discretization, expand the information theory and proposed the choice method. Hybrid feature of KDE based on conditional entropy.
【技术实现步骤摘要】
一种基于混合特征KDE条件熵的特征选择方法
本专利技术涉及特征选择方法,具体是指一种基于混合特征KDE条件熵的特征选择方法。
技术介绍
随着数据的存储能力以及计算能力的提高,数据大小以及数据维度越来越大,给数据挖掘或机器学习任务带来了更大的压力。特征选择作为数据挖掘、模式识别、机器学习任务重要的预处理步骤,从大量的属性中,消去冗余、无关的属性,降低了数据维度、提高了算法的效率。信息论中的熵和互信息等概念在特征选择中占据重要的地位,具备着无需先验知识检测非线性关系、抗噪声干扰等优点。然而基于信息理论的特征选择方法主要是针对离散属性的,对于连续特征,大多采取离散化的方式以适应传统的特征选择方法。核密度估计(KDE)是一种对随机变量的概率密度函数进行无参估计的方法。将KDE与信息理论中的熵结合,目前基于KDE熵的特征选择方法具有较好的效果,但是已有的方法只是针对连续特征。针对着这个问题,本专利技术拓展了信息理论,使得基于KDE熵能够适用于混合特征。
技术实现思路
本专利技术的目的是为了处理混合特征的特征选择,而提出一种新的基于混合特征KDE条件熵的特征选择方法。该方法提出了 ...
【技术保护点】
一种基于混合特征KDE条件熵的特征选择方法,其特征在于,包括如下步骤:步骤一,输入包括决策特征D的数据集U,其中,数据集U有n个样本,决策特征D={1,2,...,N},离散特征向量Α={A1,A2,...,Am},连续特征向量X={X1,X2,...,Xt},窗宽参数h,停止阈值T;步骤二,设已选择的特征集为B,未选择的特征集为E,初始值设为
【技术特征摘要】
1.一种基于混合特征KDE条件熵的特征选择方法,其特征在于,包括如下步骤:步骤一,输入包括决策特征D的数据集U,其中,数据集U有n个样本,决策特征D={1,2,...,N},离散特征向量Α={A1,A2,...,Am},连续特征向量X={X1,X2,...,Xt},窗宽参数h,停止阈值T;步骤二,设已选择的特征集为B,未选择的特征集为E,初始值设为E=A∪X,每选择一个特征前后的条件熵之差步骤三,通过特征集E中的每一属性S和特征集B中的所有属性建立临时特征集B′,执行以下步骤;步骤四,对于B′中连续特征集X′的每一种取值x,和决策属性集D中的每一种取值d以及B′中离散特征集A′的每一种取值a,计算KDE概率和步骤五,通过步骤四中获得KDE概率计算基于混合特征KDE条件熵和以及基于混合特征KDE联合熵其中记为离散属性集A′的值域,为连续属性集X′的值域,为决策集D的值域;步骤六,选择条件熵最小的属性加入到特征集B中,获得已选属性B=B∪{S*},并从未选择的特征集中删除E=E-{S*};步骤七,通过步骤六中B=B∪{S*}获得加入新属性前后的条件熵之差,即步骤八,判断步骤七中条件熵之差是否大于阈值T并且特征集B中的特征个数小于数据集总的特征数,即如果满足条件,返回步骤三;否则输出特征集B。2.根据权利要求1所述的一种基于混合特征KDE条件熵的特征选择方法,其特征在于,所述步骤四中KDE概率通过公式(1)生成:3.根据权利...
【专利技术属性】
技术研发人员:代建华,徐思琪,高帅超,
申请(专利权)人:天津大学,
类型:发明
国别省市:天津,12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。