【技术实现步骤摘要】
本专利技术属于机器学习领域的特征选择问题,具体涉及的是一种利用条件互信息与K-means算法对无标签数据集进行无监督特征选择的方法。
技术介绍
在机器学习的实际应用中,特征数量往往较多,其中可能存在不相关的特征,特征之间也可能存在相互依赖。特征个数越多,分析特征、训练模型所需的时间就越长,而且容易引起“维度灾难”,使模型更为复杂,从而带来模型推广能力下降等后果。因此,进行特征选择尤为重要。特征选择也称特征子集选择或属性选择,是指从全部特征中选取一个特征子集,使构造出来的模型更好。特征选择能剔除不相关或冗余的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化了模型,使研究人员易于理解数据产生的过程。根据搜索最优特征子集与构建学习模型的结合方式的不同,特征选择方法可以大致分为封装式特征选择(Wrapper)和过滤式特征选择(Filter)两类。封装式特征选择不断重复地运行学习算法去评估属性集的好坏,它在精度上优于过滤式特征选择,但对于其他分类器来说,它的泛化性能较差。面对高维数据集,由于封装式特征选择需要与特定的学习算法紧密结合,因此学习过程中的计算复杂度很高。过滤式特征选择不需要特定的学习算法,而是使用合适的准则来快速评价特征的好坏,因此是一种计算效率较高的方法。现有的大部分传统特征选择方法是以提高分类精度为优化目标,没有充分考虑数据样本的分布状况,且普遍追求大类的学习效果,容易忽略小类的学习性能。为解决数据不平衡的问题,在数据层面上,可以在训练前对训练集的正类样本进行重抽样,从而使正负类样本达到平衡,然后再 ...
【技术保护点】
一种基于条件互信息和K‑means的无监督特征选择方法,其特征在于,包括以下步骤:步骤1),对无标签数据集进行多次不同K值和不同聚类中心的K‑means聚类,并获得每次的聚类结果;步骤2),根据步骤1)得到的不同聚类结果,依次针对每次的聚类结果构造各个特征的特征向量图;步骤3),根据步骤2)构造出的特征向量图,计算每个特征的模块化度量值,并将模块化度量值最大的特征放入特征子集中;步骤4),根据步骤3)得到的初始特征子集,计算每个剩余特征相对于特征子集里各个特征的条件互信息,从而计算出每个剩余特征相对于特征子集的相关独立性度量值;步骤5),将步骤3)得到的每个剩余特征的模块化度量值与步骤4)得到的相关独立性度量值以一定权重相加,将计算结果作为每个剩余特征的得分;步骤6),将步骤5)得到的得分最高的特征放入特征子集中,然后迭代地进行步骤4)、步骤5)、步骤6),直到特征子集中的特征个数达到所需要的个数;步骤7),将步骤6)得到的根据不同K‑means聚类结果形成的特征子集进行汇总,得到最终的特征子集。
【技术特征摘要】
1.一种基于条件互信息和K-means的无监督特征选择方法,其特征在于,包括以下步骤:步骤1),对无标签数据集进行多次不同K值和不同聚类中心的K-means聚类,并获得每次的聚类结果;步骤2),根据步骤1)得到的不同聚类结果,依次针对每次的聚类结果构造各个特征的特征向量图;步骤3),根据步骤2)构造出的特征向量图,计算每个特征的模块化度量值,并将模块化度量值最大的特征放入特征子集中;步骤4),根据步骤3)得到的初始特征子集,计算每个剩余特征相对于特征子集里各个特征的条件互信息,从而计算出每个剩余特征相对于特征子集的相关独立性度量值;步骤5),将步骤3)得到的每个剩余特征的模块化度量值与步骤4)得到的相关独立性度量值以一定权重相加,将计算结果作为每个剩余特征的得分;步骤6),将步骤5)得到的得分最高的特征放入特征子集中,然后迭代地进行步骤4)、步骤5)、步骤6),直到特征子集中的特征个数达到所需要的个数;步骤7),将步骤6)得到的根据不同K-means聚类结果形成的特征子集进行汇总,得到最终的特征子集。2.如权利要求1所述的方法,其特征在于,步骤1)对无标签数据集进行多次不同K值和不同聚类中心的K-means聚类,并获得每次的聚类结果;初始化时,人为地指定K-means聚类算法的最大聚类个数和最小聚类个数,以及聚类次数;每一次进行聚类时,K-means算法在最大聚类个数和最小聚类个数之间随机选择一个数作为簇的数目k,并在数据集中随机选择k个点作为初始质心,通过K-means聚类算法,依次得到每一次聚类的结果,即类标签C。3.如权利要求1所述的方法,其特征在于,进一步的,步骤2)根据步骤1)得到的不同聚类结果,依次针对每次的聚类结果构造各个特征的特征向量图;对数据集中某一特征的特征向量图的构造,是在该特征下特征值和类标签已知的情况下,将每个样本作为一个点,假设某个样本所在的类包含了x个样本,则将该样本所对应的点与和它特征值最接近的x-1个样本点相连接,在同一特征下对数据集中的所有样本执行以上的操作,即可构造出该特征的特征向量图。4.如权利要求1所述的方法,其特征在于,步骤3)根据步骤2)构造出的特征向量图,计算每个特征的模块化度量值,计算公式为:Q=Σij[Aij2M-ki*kj(2M)*(2M)]δ(Ci,Cj)]]>公式中,i、j是步骤2)构造出的特...
【专利技术属性】
技术研发人员:马廷淮,邵文晔,曹杰,薛羽,
申请(专利权)人:南京信息工程大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。