基于成员选择的簇加权聚类集成方法技术

技术编号:39742420 阅读:10 留言:0更新日期:2023-12-17 23:42
本发明专利技术公开了一种基于成员选择的簇加权聚类集成方法,包括:构建聚类成员集合;将聚类成员集合输入预先训练好的决策树模型中,输出聚类成员集合中每个聚类成员的标签,筛选出标签为预先标签的聚类成员,生成目标聚类集体;确定目标聚类集体中每个簇的簇层加权系数;根据簇层加权系数确定目标聚类集体的目标

【技术实现步骤摘要】
基于成员选择的簇加权聚类集成方法


[0001]本专利技术涉及数据聚类
,特别涉及一种基于成员选择的簇加权聚类集成方法


技术介绍

[0002]聚类分析是机器学习研究的热点之一,被广泛用于数据压缩

信息检索

图像分割和文本聚类,在生物学

地质学

地理学和异常数据检测等领域受到越来越多的关注

聚类分析是一种无监督的机器学习,事先缺少对数据集的先验知识,仅依据数据点

样本

对象之间的相似性度量将数据集自动分为若干个分组或者簇,使得属于相同簇的点之间的相似度尽量高,而属于不同簇的点之间的相似度尽量低

聚类集成是将集成学习思想引入到聚类分析之中,从而开启了聚类集成研究

主要分为两步:第一步把数据集作为输入,运行聚类算法,输出多个不同的聚类结果,这一步称为聚类成员生成;第二步把所有聚类成员构成的集合,即聚类集体,作为输入,对它们进行组合,输出最终的聚类结果,这一步称为聚类集成,也称为共识函数设计

[0003]聚类算法:作为成员选择的基础,常用的聚类算法包括
K

means、DBSCAN、
层次聚类等

这些聚类算法可以将数据点分配到不同的簇中

选择方法:用于选择参与集成的聚类成员

常见的成员选择方法包括基于聚类性能的选择,如选择具有较高稳定性和一致性的聚类成员;基于多样性的选择,如选择具有较大差异性的聚类成员;以及基于启发式规则或模型的选择,如选择经验上较好的聚类成员

集成策略:确定如何整合选择的聚类成员以生成最终的聚类结果

常见的集成策略包括投票法
(
根据聚类成员的投票来决定最终的簇分配
)、
加权法
(
根据聚类成员的权重来决定最终的簇分配
)


聚类性能评估:用于评估聚类集成结果的质量和效果

常见的聚类性能评估指标包括聚类间距离

聚类内部紧密度

轮廓系数等

[0004]目前,大多数方法的共同局限性是,它们通常平等地对待集成中的所有聚类和所有基聚类,可能会出现质量较低的聚类或质量较低的基聚类

[0005]现有技术1为论文,庄栋
.
基于成员选择的聚类集成算法研究
[D].
杭州电子科技大学,公开了一种基于成员选择的聚类集成算法,包括:步骤1:在聚类成员生成阶段选取了三种聚类算法,分别是
K

均值聚类算法

模糊
c
均值聚类算法

基于核的模糊
c
均值聚类算法;步骤2:基于标准互信息
(Normalized Mutual Information,NMI)
和调整后
Rand
指数
(Adjusted Rand Index,ARI)
来衡量聚类成员间的差异性;步骤3:对聚类成员差异性进行计算后,选出部分聚类成员组成一个新数据集;步骤4:利用
K

means
算法对新的数据集进行聚类,其中,簇数值设置为所需选择的聚类成员个数

该技术方案中是将生成的若干个聚类成员视为一个新数据集,每个聚类成员的多差异性指标作为样本的特征值,然后利用
K

means
算法对新数据集进行聚类,接着利用联合质量评价函数,计算并挑选出各簇中质量最高的聚类成员,组成所需的成员子集,成员子集中的聚类成员同时满足差异性大和质量高的要求

[0006]现有技术2为期刊,邵长龙
,
孙统风
,
丁世飞
.
基于信息熵加权的聚类集成算法
[J],公开了一种基于信息熵加权的聚类集成算法,包括:步骤1:在聚类成员生成阶段选取了
K

means
算法,随机生成了基本聚类成员;步骤2:对基聚类中每个簇的稳定性进行衡量,引入信息熵的簇评价指标
(Information Entropy Index

IEI)
;步骤3:利用
IEI
指标形成一个加权的共协矩阵
S
;步骤4:将矩阵
S
看成一个无向图,用
Ncut
算法对其进行图分割得到最终结果

该技术方案中是引入信息熵来评估簇的不确定性指标,作为簇加权的衡量指标

[0007]现有技术中存在以下技术问题:
1.
聚类成员数目不断增多时,会出现大量冗余的聚类成员

传统的聚类集成算法生成聚类成员后,会将所有的聚类成员进行集成,当冗余聚类成员较多时,集成就失去了意义,且空间复杂度也随之增大
。2.
在集成阶段,认为质量各异的聚类成员对集成结果的贡献是一样的,将会平等地对待每一个聚类成员,这样会加剧质量差的聚类成员对集成结果的影响
。3.
集成过程中,有的虽然会区别对待各聚类成员,会对聚类成员进行评估或者加权,但都是将聚类成员视为了独立个体,忽略了同一聚类成员内部簇的局部多样性


技术实现思路

[0008]本专利技术旨在至少一定程度上解决上述技术中的技术问题之一

为此,本专利技术的目的在于提出一种基于成员选择的簇加权聚类集成方法,选择出高质量的聚类成员,再考虑聚类成员的簇层的多样性,衡量簇的不确定性,对簇层进行权值分配;最后根据权值以及高置信度信息来微调
CA
矩阵,以此来提高聚类的准确性和鲁棒性

[0009]为达到上述目的,本专利技术实施例提出了一种基于成员选择的簇加权聚类集成方法,包括:
[0010]构建聚类成员集合;
[0011]将聚类成员集合输入预先训练好的决策树模型中,输出聚类成员集合中每个聚类成员的标签,筛选出标签为预先标签的聚类成员,生成目标聚类集体;
[0012]确定目标聚类集体中每个簇的簇层加权系数;
[0013]根据簇层加权系数确定目标聚类集体的目标
CA
矩阵;
[0014]根据目标
CA
矩阵执行层次聚类算法,得到最终的聚类结果

[0015]根据本专利技术的一些实施例,构建聚类成员集合,包括:
[0016]获取聚类成员个数
r
和聚类个数
k

[0017]初始化
i
=1;
[0018]判断
i
是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于成员选择的簇加权聚类集成方法,其特征在于,包括:构建聚类成员集合;将聚类成员集合输入预先训练好的决策树模型中,输出聚类成员集合中每个聚类成员的标签,筛选出标签为预先标签的聚类成员,生成目标聚类集体;确定目标聚类集体中每个簇的簇层加权系数;根据簇层加权系数确定目标聚类集体的目标
CA
矩阵;根据目标
CA
矩阵执行层次聚类算法,得到最终的聚类结果
。2.
如权利要求1所述的基于成员选择的簇加权聚类集成方法,其特征在于,构建聚类成员集合,包括:获取聚类成员个数
r
和聚类个数
k
;初始化
i
=1;判断
i
是否小于等于
r
;在确定
i
是小于等于
r
时,使用
K

Means
算法聚类,生成聚类成员,得到聚类结果;赋值
i

i+1
,继续判断,直至
i
不是小于等于
r
时,构建聚类成员集合
。3.
如权利要求1所述的基于成员选择的簇加权聚类集成方法,其特征在于,得到预先训练好的决策树模型的方法,包括:获取样本聚类成员集合;计算样本聚类成员集合中每个样本聚类成员的
Davies

Bouldin
指数,并求出整体的平均值;将每个样本聚类成员的
Davies

Bouldin
指数分别与平均值进行比较,给
Davies

Bouldin
指数低于平均值的样本聚类成员打上“高”的标签,给
Davies

Bouldin
指数高于平均值的样本聚类成员打上“低”的标签;基于带有标签的样本聚类成员作为训练集进行训练,得到训练好的决策树模型
。4.
如权利要求3所述的基于成员选择的簇加权聚类集成方法,其特征在于,基于带有标签的样本聚类成员作为训练集进行训练,得到训练好的决策树模型,包括:确定每个样本聚类成员的
ARI、NMI

F

measure
指数,并作为特征属性集;
ARI
的取值范围为
[

1,1]

NMI

F

measure
指数的取值范围为
[0,1]
;计算特征属性集中关于
ARI、NMI

F

measure
指数三个方面的基尼系数,并进行比较,选择基尼系数最小的“特征属性
1”作为根节点,“特征属性
1”取值接近1的标记为“高”;然后,将“特征属性
1”取值不接近1的带有标签的聚类成员作为新一轮的标签集,继续分别计算剩余的两个特征属性的基尼系数,选择此时最小的“特征属性
2”作为内部结点;最后,余下的特征属性作为“特征属性
3...

【专利技术属性】
技术研发人员:徐秀芳高婷徐森黄曙荣花小朋许贺洋郭乃瑄卞学胜孙雯刘轩绮
申请(专利权)人:盐城工学院技术转移中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1