一种基于数据稳定性的选择性聚类集成方法技术

技术编号:19024000 阅读:50 留言:0更新日期:2018-09-26 19:12
本发明专利技术公开了一种基于数据稳定性的选择性聚类集成方法,包括步骤:1)输入数据集并进行预处理;2)对数据集进行聚类结果集合生成;3)进行聚类结果筛选,得到聚类子集;4)进行样本划分,把数据集划分为稳定子集及不稳定子集;5)制定基于稳定子集及不稳定子集的目标函数,进一步筛选聚类子集;6)融合最终聚类子集,得到聚类结果。较于传统方法,本发明专利技术有以下创新点:多视角聚类,增强多样性;自动筛选合适聚类算法,避免数据假设不符合问题;设计基于数据稳定性的目标函数,具有很强的自适应性;通过指标提升程度控制多目标遗传算法收敛方向,提高收敛速度及准确性。

【技术实现步骤摘要】
一种基于数据稳定性的选择性聚类集成方法
本专利技术涉及计算机人工智能的
,尤其是指一种基于数据稳定性的选择性聚类集成方法。
技术介绍
聚类分析是机器学习与数据挖掘中重要而又充满挑战的问题,聚类的目标是把相似的样本归到同一类,但是不同聚类算法对数据有不同的前提假设,而且单一算法很难处理复杂的特征表示问题。聚类集成很好地解决了以上的问题因此得到广泛应用,通过融合多个具有多样性、准确性的聚类结果,往往能对聚类效果有很大的提升,但是聚类结果中有很多噪声成员,不将其去除将会影响聚类集成的性能,本专利技术主要解决聚类集成选择问题。在传统的聚类集成选择方法中,Kuncheva等人发现多样性高的聚类子集性能最佳。而Kuncheva等人发现适度的多样性效果更好。Fern等人设计了三个结合多样性与质量的启发函数来选择聚类子集。Azimi等人通过对数据集进行分类来采取不同集成选择策略。目前聚类集成选择方法具有以下缺点:第一,缺乏自适应性,对于所有的数据集几乎采取同样的选择策略;第二,先验知识依赖程度大,大部分算法采用k-means作为聚类生成函数,只对球状类簇数据适用;第三,优化效率低,大部分算法将本文档来自技高网...

【技术保护点】
1.一种基于数据稳定性的选择性聚类集成方法,其特征在于,包括以下步骤:1)输入测试数据集,并对其进行预处理;2)结合基础聚类算法及特征子空间技术对测试数据集进行初始聚类结果集合生成;3)对初始聚类结果集合进行算法级结果筛选,得到初步聚类结果子集;4)利用初步聚类结果子集进行样本划分,把测试数据集划分为稳定子集及不稳定子集;5)制定基于稳定子集及不稳定子集的目标函数,根据初步聚类结果子集得到聚类结果选择器集合;6)融合由聚类结果选择器集合构成的最终聚类结果子集,得到最终聚类结果。

【技术特征摘要】
1.一种基于数据稳定性的选择性聚类集成方法,其特征在于,包括以下步骤:1)输入测试数据集,并对其进行预处理;2)结合基础聚类算法及特征子空间技术对测试数据集进行初始聚类结果集合生成;3)对初始聚类结果集合进行算法级结果筛选,得到初步聚类结果子集;4)利用初步聚类结果子集进行样本划分,把测试数据集划分为稳定子集及不稳定子集;5)制定基于稳定子集及不稳定子集的目标函数,根据初步聚类结果子集得到聚类结果选择器集合;6)融合由聚类结果选择器集合构成的最终聚类结果子集,得到最终聚类结果。2.根据权利要求1所述的一种基于数据稳定性的选择性聚类集成方法,其特征在于:在步骤1)中,输入矩阵形式的测试数据集,对其执行归一化操作:其中,N为测试集的样本个数,F为测试数据集的特征个数,为测试数据集第i个样本的第k个特征的值,X(k)min为测试数据集第k个特征的最小值,X(k)max为测试数据集第k个特征的最大值。3.根据权利要求1所述的一种基于数据稳定性的选择性聚类集成方法,其特征在于:在步骤2)中,对测试数据集采集随机子空间,采用不同的聚类算法对随机子空间进行聚类,得到初始聚类结果集合,包括以下步骤:2.1)生成一个在区间[1,F]上服从均匀分布的随机整数作为子空间特征维数,记为NRSM,其中F为测试数据集的特征个数,然后对向量[1,2,...,F]进行随机排序,取其前面NRSM个元素作为特征下标,提取测试数据集对应下标的特征作为随机子空间;2.2)依次采用现有的K-means、FuzzyC-means、K-medoids、AverageLinkage、SingleLinkage、CompleteLinkage作为聚类算法,并设置聚类类个数为在区间[2,2C]上服从均匀分布的随机整数,记为NC,其中C为测试数据集的真实类个数;2.3)利用所选择的聚类算法对随机子空间进行聚类,聚类类个数设为NC;2.4)重复步骤2.1)~2.3)直至生成6B个聚类结果,其中B为用户预设的正整数。4.根据权利要求1所述的一种基于数据稳定性的选择性聚类集成方法,其特征在于:在步骤3)中,计算不同聚类算法的外部一致性及内部稳定性,结合这两个指标评估初始聚类结果集合,选择出初步聚类结果子集,包括以下步骤:3.1)根据初始聚类结果集合构成聚类关联矩阵,记初始聚类结果集合为{c1,c2,...,cE},其中E为聚类结果个数,ck为初始聚类结果集合中第k个聚类结果,首先将聚类结果ck转化为邻接矩阵Mk,Mk中第i行第j列的的元素为:聚类关联矩阵W邻由E个邻接矩阵求得:然后利用现有AverageLinkage算法对聚类关联矩阵W进行聚类,得到代理融合聚类结果;3.2)把初始聚类结果集合中的聚类结果根据聚类算法的不同分为六个集合,对于每个集合生成其聚类关联矩阵,然后利用现有AverageLinkage算法对其聚类关联矩阵进行聚类,得到子集融合聚类结果,然后计算代理融合聚类结果和子集融合聚类结果的相似性作为外部一致性,其中相似性采用NMI,即为标准互信息,NMI的计算方式为:其中,Ca、Cb为样本个数相同的聚类结果,ka、kb分别为Ca、Cb的类个数,n为Ca中的样本个数,为属于Ca中的类h的样本个数,为属于Cb中的类l的样本个数,nh,l为同时属于Ca中的类h及Cb中的类l的样本个数,log为自然对数函数,对六个集合的外部一致性作比较,把初始聚类结果集合中外部一致性最小的三个聚类算法对应的聚类结果剔除,得到一致性聚类结果子集;3.3)把一致性聚类结果子集中的聚类结果根据聚类算法的不同分为三个集合,对于每个集合S,计算其内部稳定性,记为stabS:其中,NS为集合S中的聚类结果个数,ci为集合S中第i个聚类结果,cj为集合S中第j个聚类结果,NMI为标准互信息,对三个集合的内部稳定性作比较,把一致性聚类结果子集中内部稳定性最小的两个聚类算法对应的聚类结果剔除,得到初步聚类结果子集。5.根据权利要求1所述的一种基于数据稳定性的选择性聚类集成方法,其特征在于:在步骤4)中,对数据集稳定性及样本稳定性进行评估,把测试数据集划分为稳定子集及不稳定子集,包括以下步骤:4.1)对于初步聚类结果子集SI,记数据集稳定性为Mstability,其计算方式为:其中,NSI为集合SI中的聚类结果个数,ci为SI中第i个聚类结果,cj为SI中第j个聚类结果,NMI为标准互信息,设数据集稳定性下限为M_minstability,上限为M_maxstability,然后对Mstability进行归一化,得到数据集稳定性指标,记为MDS:4.2)设稳定子集比例最小值为Nmin,最大值为Nmax,则稳定子集大小NS为:NS=N·[Nmin+MDS·(Nmax-Nmin)]其中N为测试数据集的样本个数;4.3)根据初步聚类结果子集计算其聚类关联性矩阵M*,对M*中第i行第j列的元素作如下修改:其中,max()为最大化函数,然后对矩阵M*按列取平均,得到样本稳定性;4.4)将初步聚类结果子集中的样本按样本稳定性进行排序,取样本稳定性最大的NS个样本构成稳定子集,其中NS为稳定子集大小,取剩余样本构成不稳定子集。6.根据权利要求1所述的一种基于数据稳定性的选择性聚类集成方法,其特征在于:在步骤5)中,制定基于稳定子集及不稳定子集的目标函数,利用多目标遗传算法对初步聚类结果子集进行...

【专利技术属性】
技术研发人员:余志文黄炜杰
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1