一种基于条件互信息和K‑means的无监督特征选择方法技术

技术编号:14819674 阅读:29 留言:0更新日期:2017-03-15 12:46
本发明专利技术提供一种基于条件互信息和K‑means的无监督特征选择方法,首先通过多次初始条件不同的K‑means算法对无类标签的数据进行聚类,然后每一次的聚类基础上,综合考虑每个特征的模块化度量值及不同特征之间的条件互信息,利用特征之间的相关独立性指标来选择出相关度高且冗余度小的特征子集。通过将不同K‑means聚类结果得到的特征子集进行汇总,获得最终的特征子集。本发明专利技术能够有效地应用于无标签和不平衡的数据集,且获得的特征子集相关度高、冗余度小。

【技术实现步骤摘要】

本专利技术属于机器学习领域的特征选择问题,具体涉及的是一种利用条件互信息与K-means算法对无标签数据集进行无监督特征选择的方法。
技术介绍
在机器学习的实际应用中,特征数量往往较多,其中可能存在不相关的特征,特征之间也可能存在相互依赖。特征个数越多,分析特征、训练模型所需的时间就越长,而且容易引起“维度灾难”,使模型更为复杂,从而带来模型推广能力下降等后果。因此,进行特征选择尤为重要。特征选择也称特征子集选择或属性选择,是指从全部特征中选取一个特征子集,使构造出来的模型更好。特征选择能剔除不相关或冗余的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化了模型,使研究人员易于理解数据产生的过程。根据搜索最优特征子集与构建学习模型的结合方式的不同,特征选择方法可以大致分为封装式特征选择(Wrapper)和过滤式特征选择(Filter)两类。封装式特征选择不断重复地运行学习算法去评估属性集的好坏,它在精度上优于过滤式特征选择,但对于其他分类器来说,它的泛化性能较差。面对高维数据集,由于封装式特征选择需要与特定的学习算法紧密结合,因此学习过程中的计算复杂度很高。过滤式特征选择不需要特定的学习算法,而是使用合适的准则来快速评价特征的好坏,因此是一种计算效率较高的方法。现有的大部分传统特征选择方法是以提高分类精度为优化目标,没有充分考虑数据样本的分布状况,且普遍追求大类的学习效果,容易忽略小类的学习性能。为解决数据不平衡的问题,在数据层面上,可以在训练前对训练集的正类样本进行重抽样,从而使正负类样本达到平衡,然后再进行相应的学习(Exploratoryunder-samplingforclass-imbalancelearning.LiuXY,WuJ,ZhouZH),但这无法使所有数据得到利用,会使得分类精度降低。在算法层面上,依据数据类别分布不平衡性的特点对传统特征选择算法进行改进,以使算法适应类别分布不均衡的样本(不均衡问题中的特征选择新算法:IM-IG.尤鸣宇,陈燕,李国正),但这种方法局限于二类不均衡问题,对于多类不均衡问题并不适用。对于过滤式特征选择而言,目前已有许多监督式特征选择方法被提出,如应用互信息对候选特征进行评估,并选择排名最前的几个特征作为神经网络分类器的输入(Usingmutualinformationforselectingfeaturesinsupervisedneuralnetlearning.R.Battiti),但这种方法忽略了特征之间的冗余,从而导致选择许多冗余的特征,并且不利于后续分类器的性能提高。而且这种方法仅适用于带有类标签信息的数据,对于无监督的特征选择并不适用。在无监督特征选择领域,许多应用于文本的无监督特征选择方法被提出,但是这些方法无法直接应用于数值型数据。部分应用于数值数据的无监督特征选择方法,如面向分类特征的无监督过滤式特征选择算法,以一趟聚类算法为基础,利用各个特征在不同簇间所表现的重要性程度作为判断依据,最后根据重要性的变化规律选取特征子集(面向分类特征的无监督特征选择方法研究.王连喜,蒋盛益),这种方法仅使用一趟聚类算法对数据进行划分,使得聚类的结果存在随机性,无法保证特征选择的准确性。本专利技术首先通过多次初始条件不同的K-means算法对无类标签的数据进行聚类,然后在此聚类基础上,综合考虑每个特征的模块化度量值及不同特征之间的条件互信息,获得相关度高且冗余度小的特征子集,最后将不同K-means聚类结果得到的特征子集进行汇总。
技术实现思路
目的:本专利技术所要解决的技术问题是无标签数据集的特征选择问题,提出一种基于条件互信息和K-means的无监督特征选择方法。通过多次初始条件不同的K-means算法对无类标签的数据进行聚类,消除单次聚类结果上进行特征选择的随机性,并减少数据不平衡对特征选择的影响。在每一次的聚类的基础上,综合考虑每个特征的模块化度量值及不同特征之间的条件互信息,利用特征之间的相关独立性指标来选择出相关度高且冗余度小的特征组合。通过将不同K-means聚类结果得到的特征子集进行汇总,获得最终的特征子集。本专利技术能够有效地应用于无标签和不平衡的数据集,且获得的特征子集相关度高、冗余度小。本专利技术的技术方案如下:一种基于条件互信息和K-means的无监督特征选择方法,包括以下步骤:步骤1),对无标签数据集进行多次不同K值和不同聚类中心的K-means聚类,并获得每次的聚类结果;步骤2),根据步骤1)得到的不同聚类结果,依次针对每次的聚类结果构造各个特征的特征向量图;步骤3),根据步骤2)构造出的特征向量图,计算每个特征的模块化度量值,并将模块化度量值最大的特征放入特征子集中;步骤4),根据步骤3)得到的初始特征子集,计算每个剩余特征相对于特征子集里各个特征的条件互信息,从而计算出每个剩余特征相对于特征子集的相关独立性度量值;步骤5),将步骤3)得到的每个剩余特征的模块化度量值与步骤4)得到的相关独立性度量值以一定权重相加,将计算结果作为每个剩余特征的得分;步骤6),将步骤5)得到的得分最高的特征放入特征子集中,然后迭代地进行步骤4)、步骤5)、步骤6),直到特征子集中的特征个数达到所需要的个数;步骤7),将步骤6)得到的根据不同K-means聚类结果形成的特征子集进行汇总,得到最终的特征子集。进一步的,本专利技术的基于条件互信息和K-means的无监督特征选择方法,步骤1)对无标签数据集进行多次不同K值和不同聚类中心的K-means聚类,并获得每次的聚类结果。本专利技术首先使用K-means聚类算法对无标签数据集进行多次初始值不同的聚类。初始化时,人为地指定K-means聚类算法的最大聚类个数和最小聚类个数,以及聚类次数。每一次进行聚类时,K-means算法在最大聚类个数和最小聚类个数之间随机选择一个数作为簇的数目k,并在数据集中随机选择k个点作为初始质心,通过K-means聚类算法,可以依次得到每一次聚类的结果,即类标签C。进一步的,本专利技术的基于条件互信息和K-means的无监督特征选择方法,步骤2)根据步骤1)得到的不同聚类结果,依次针对每次的聚类结果构造各个特征的特征向量图。对数据集中某一特征的特征向量图的构造,是在该特征下特征值和类标签已知的情况下,将每个样本作为一个点,假设某个样本所在的类包含了x个样本,则将该样本所对应的点与和它特征值最接近的x-1个样本点相连接,在同一特征下对数据集中的所有样本执行以上的操作,即可构造出该特征的特征向量图。进一步的,本专利技术的基于条件互信息和K-means的无监督特征选择方法,步骤3)根据步骤2)构造出的特征向量图,计算每个特征的模块化度量值,计算公式为:公式中,i、j是步骤2)构造出的特征向量图中的两个点;Aij是特征向量图的邻接矩阵,如果从i到j存在边,则Aij=1,否则为0;M是总连接数,即特征向量图中边的总数;ki和kj分别是节点i和j的度数;二元函数δ(Ci,Cj)表示如果节点i和j属于同一个簇,则为1,否则为0;根据每个特征的特征向量图计算出各自的模块化度量值之后,将所有的模块化度量值进行归一化,得到Q’,将Q’最大值所对应的特征放入特征子集本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/201610888945.html" title="一种基于条件互信息和K‑means的无监督特征选择方法原文来自X技术">基于条件互信息和K‑means的无监督特征选择方法</a>

【技术保护点】
一种基于条件互信息和K‑means的无监督特征选择方法,其特征在于,包括以下步骤:步骤1),对无标签数据集进行多次不同K值和不同聚类中心的K‑means聚类,并获得每次的聚类结果;步骤2),根据步骤1)得到的不同聚类结果,依次针对每次的聚类结果构造各个特征的特征向量图;步骤3),根据步骤2)构造出的特征向量图,计算每个特征的模块化度量值,并将模块化度量值最大的特征放入特征子集中;步骤4),根据步骤3)得到的初始特征子集,计算每个剩余特征相对于特征子集里各个特征的条件互信息,从而计算出每个剩余特征相对于特征子集的相关独立性度量值;步骤5),将步骤3)得到的每个剩余特征的模块化度量值与步骤4)得到的相关独立性度量值以一定权重相加,将计算结果作为每个剩余特征的得分;步骤6),将步骤5)得到的得分最高的特征放入特征子集中,然后迭代地进行步骤4)、步骤5)、步骤6),直到特征子集中的特征个数达到所需要的个数;步骤7),将步骤6)得到的根据不同K‑means聚类结果形成的特征子集进行汇总,得到最终的特征子集。

【技术特征摘要】
1.一种基于条件互信息和K-means的无监督特征选择方法,其特征在于,包括以下步骤:步骤1),对无标签数据集进行多次不同K值和不同聚类中心的K-means聚类,并获得每次的聚类结果;步骤2),根据步骤1)得到的不同聚类结果,依次针对每次的聚类结果构造各个特征的特征向量图;步骤3),根据步骤2)构造出的特征向量图,计算每个特征的模块化度量值,并将模块化度量值最大的特征放入特征子集中;步骤4),根据步骤3)得到的初始特征子集,计算每个剩余特征相对于特征子集里各个特征的条件互信息,从而计算出每个剩余特征相对于特征子集的相关独立性度量值;步骤5),将步骤3)得到的每个剩余特征的模块化度量值与步骤4)得到的相关独立性度量值以一定权重相加,将计算结果作为每个剩余特征的得分;步骤6),将步骤5)得到的得分最高的特征放入特征子集中,然后迭代地进行步骤4)、步骤5)、步骤6),直到特征子集中的特征个数达到所需要的个数;步骤7),将步骤6)得到的根据不同K-means聚类结果形成的特征子集进行汇总,得到最终的特征子集。2.如权利要求1所述的方法,其特征在于,步骤1)对无标签数据集进行多次不同K值和不同聚类中心的K-means聚类,并获得每次的聚类结果;初始化时,人为地指定K-means聚类算法的最大聚类个数和最小聚类个数,以及聚类次数;每一次进行聚类时,K-means算法在最大聚类个数和最小聚类个数之间随机选择一个数作为簇的数目k,并在数据集中随机选择k个点作为初始质心,通过K-means聚类算法,依次得到每一次聚类的结果,即类标签C。3.如权利要求1所述的方法,其特征在于,进一步的,步骤2)根据步骤1)得到的不同聚类结果,依次针对每次的聚类结果构造各个特征的特征向量图;对数据集中某一特征的特征向量图的构造,是在该特征下特征值和类标签已知的情况下,将每个样本作为一个点,假设某个样本所在的类包含了x个样本,则将该样本所对应的点与和它特征值最接近的x-1个样本点相连接,在同一特征下对数据集中的所有样本执行以上的操作,即可构造出该特征的特征向量图。4.如权利要求1所述的方法,其特征在于,步骤3)根据步骤2)构造出的特征向量图,计算每个特征的模块化度量值,计算公式为:Q=Σij[Aij2M-ki*kj(2M)*(2M)]δ(Ci,Cj)]]>公式中,i、j是步骤2)构造出的特...

【专利技术属性】
技术研发人员:马廷淮邵文晔曹杰薛羽
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1