一种基于邻域条件互信息的交互特征选择方法技术

技术编号:28623176 阅读:26 留言:0更新日期:2021-05-28 16:19
本发明专利技术公开了一种基于邻域条件互信息的交互特征选择方法,首先针对不同的数据类型,利用HCOM距离函数确定每个特征的邻域关系,依据多邻域半径集计算每个特征的邻域相似关系矩阵;其次利用邻域信息探究特征之间的关联性,包含特征与类之间的相关性,特征之间的冗余性和交互性;基于这种关联性,一种最大相关性,最小冗余性和最大交互性(MRmRMI)的特征重要性的评价函数被构建;利用该评价函数对特征的重要性进行评分以获得一个对分类贡献从大到小的一个有序的特征序列;最后,通过在不同分类器上的测试选择出最终的约简特征子集,该特征子集即为所求最佳平均分类性能所对应的特征子集序列。与其他六种流行的特征选择算法比较,本发明专利技术方法具有较高的分类性能和更为显著的分类效果。

【技术实现步骤摘要】
一种基于邻域条件互信息的交互特征选择方法
本专利技术属于数据挖掘
,是一种针对含噪声和不确定性混合数据的特征选择方法,该方法综合考虑了特征与类之间相关性及特征之间冗余性和交互性。
技术介绍
近年来,大数据应用的发展对高维数据的理解和处理提出了更高的要求。特别是,大量具有噪声、无关或冗余特征的数据集为数据挖掘、知识发现和模式识别带来了巨大的挑战。由于维数灾难的存在,如何从所有特征中选择最优的特征子集被认为是各种学习任务中值得研究的课题。针对这一问题,人们提出了许多特征选择方法,这些方法致力于去除不相关的特征,消除特征之间的冗余。由于不一致、噪声和混合数据在实际模型构建中的普遍存在,以信息理论为代表的不确定性度量被引入邻域粗糙集中用以进行属性约简。近年来,许多基于信息理论的邻域粗糙集特征选择方法取得了很大的进步。然而,这些方法忽略了特征之间由于相互依赖性所产生的交互作用,使得一些重要信息丢失,从而影响最终的学习效果。特征交互性指的是那些单独的特征出现时与类的相关性不大,但当其与其它特征进行结合时可为分类提供较大的联合信息。例如本文档来自技高网...

【技术保护点】
1.一种基于邻域条件互信息的交互特征选择方法,首先,针对不同的数据类型,利用HCOM距离函数确定每个特征的邻域关系,依据多邻域半径集计算每个特征的邻域相似关系矩阵;其次,利用邻域信息探究特征之间的关联性,包含特征与类之间的相关性,特征之间的冗余性和交互性;基于这种关联性,一种最大相关性,最小冗余性和最大交互性MRmRMI的特征重要性的评价函数被构建;利用该评价函数对特征的重要性进行评分以获得一个对分类贡献从大到小的一个有序的特征序列;最后,通过在不同分类器上的测试选择出最终的约简特征子集,该特征子集即为所求最佳平均分类性能所对应的特征子集序列;包括以下主要操作步骤:/n步骤1:混合数据预处理/...

【技术特征摘要】
1.一种基于邻域条件互信息的交互特征选择方法,首先,针对不同的数据类型,利用HCOM距离函数确定每个特征的邻域关系,依据多邻域半径集计算每个特征的邻域相似关系矩阵;其次,利用邻域信息探究特征之间的关联性,包含特征与类之间的相关性,特征之间的冗余性和交互性;基于这种关联性,一种最大相关性,最小冗余性和最大交互性MRmRMI的特征重要性的评价函数被构建;利用该评价函数对特征的重要性进行评分以获得一个对分类贡献从大到小的一个有序的特征序列;最后,通过在不同分类器上的测试选择出最终的约简特征子集,该特征子集即为所求最佳平均分类性能所对应的特征子集序列;包括以下主要操作步骤:
步骤1:混合数据预处理
给定一个邻域决策系统NDS=(U,F∪D,V,f,δ),其中,论域U是一个大小为n的样本集,记为U={x1,x2,…,xn};F是一个大小为m的特征集,记为F={f1,f2,…,fm};D={d}是一个单决策类;V是特征的值域并表示为其中为特征在所有样本上取值的集合;f:U×(F∪D)→V是一个信息函数,其为每个对象分配属性值;δ是一个邻域参数。
由异构切比雪夫重叠度量HCOM的距离函数在特征上确定样本的邻域相似关系针对所有特征的多邻域半径集被计算为:



其中,

所有样本关于特征取值的标准差,参数∈用于调节特征的邻域半径,该参数的取值取决于不同数据集中不同特征值的分布特性;论域U上的相似关系矩阵被获得,其中为定义在特征上的一个距离函数;
步骤2:特征关联性分析和定义
特征的关联性被划分为:(1)特征与类之间的相关性;(2)类独立的成对特征冗余性;(3)类依赖的成对特征交互性;具体分析和处理过程如下:
2-1)特征与类之间的相关性度量
给定一个邻域决策系统NDS=(U,F∪D,V,f,δ),是已选特征子集,是当前候选特征,则与d之间的邻域互信息衡量特征与类之间的相关性并将其定义为:



其中,和δd(xi)分别表示xi在特征和d上的邻域;则表示xi在组合特征上的邻域;
最相关的特征具有最大的互信息,这种特征选择策略被称为最大相关...

【专利技术属性】
技术研发人员:陈红梅万继红李天瑞罗川胡节
申请(专利权)人:西南交通大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1