【技术实现步骤摘要】
基于成员选择的簇加权聚类集成方法
[0001]本专利技术涉及数据聚类
,特别涉及一种基于成员选择的簇加权聚类集成方法
。
技术介绍
[0002]聚类分析是机器学习研究的热点之一,被广泛用于数据压缩
、
信息检索
、
图像分割和文本聚类,在生物学
、
地质学
、
地理学和异常数据检测等领域受到越来越多的关注
。
聚类分析是一种无监督的机器学习,事先缺少对数据集的先验知识,仅依据数据点
、
样本
、
对象之间的相似性度量将数据集自动分为若干个分组或者簇,使得属于相同簇的点之间的相似度尽量高,而属于不同簇的点之间的相似度尽量低
。
聚类集成是将集成学习思想引入到聚类分析之中,从而开启了聚类集成研究
。
主要分为两步:第一步把数据集作为输入,运行聚类算法,输出多个不同的聚类结果,这一步称为聚类成员生成;第二步把所有聚类成员构成的集合,即聚类集体,作为输入,对它们进行组合,输出最终的聚类结果,这一步称为聚类集成,也称为共识函数设计
。
[0003]聚类算法:作为成员选择的基础,常用的聚类算法包括
K
‑
means、DBSCAN、
层次聚类等
。
这些聚类算法可以将数据点分配到不同的簇中
。
选择方法:用于选择参与集成的聚类成员
。
常见的成员选择方法包括基于聚类性能的选择,如 ...
【技术保护点】
【技术特征摘要】
1.
一种基于成员选择的簇加权聚类集成方法,其特征在于,包括:构建聚类成员集合;将聚类成员集合输入预先训练好的决策树模型中,输出聚类成员集合中每个聚类成员的标签,筛选出标签为预先标签的聚类成员,生成目标聚类集体;确定目标聚类集体中每个簇的簇层加权系数;根据簇层加权系数确定目标聚类集体的目标
CA
矩阵;根据目标
CA
矩阵执行层次聚类算法,得到最终的聚类结果
。2.
如权利要求1所述的基于成员选择的簇加权聚类集成方法,其特征在于,构建聚类成员集合,包括:获取聚类成员个数
r
和聚类个数
k
;初始化
i
=1;判断
i
是否小于等于
r
;在确定
i
是小于等于
r
时,使用
K
‑
Means
算法聚类,生成聚类成员,得到聚类结果;赋值
i
=
i+1
,继续判断,直至
i
不是小于等于
r
时,构建聚类成员集合
。3.
如权利要求1所述的基于成员选择的簇加权聚类集成方法,其特征在于,得到预先训练好的决策树模型的方法,包括:获取样本聚类成员集合;计算样本聚类成员集合中每个样本聚类成员的
Davies
‑
Bouldin
指数,并求出整体的平均值;将每个样本聚类成员的
Davies
‑
Bouldin
指数分别与平均值进行比较,给
Davies
‑
Bouldin
指数低于平均值的样本聚类成员打上“高”的标签,给
Davies
‑
Bouldin
指数高于平均值的样本聚类成员打上“低”的标签;基于带有标签的样本聚类成员作为训练集进行训练,得到训练好的决策树模型
。4.
如权利要求3所述的基于成员选择的簇加权聚类集成方法,其特征在于,基于带有标签的样本聚类成员作为训练集进行训练,得到训练好的决策树模型,包括:确定每个样本聚类成员的
ARI、NMI
及
F
‑
measure
指数,并作为特征属性集;
ARI
的取值范围为
[
‑
1,1]
,
NMI
和
F
‑
measure
指数的取值范围为
[0,1]
;计算特征属性集中关于
ARI、NMI
及
F
‑
measure
指数三个方面的基尼系数,并进行比较,选择基尼系数最小的“特征属性
1”作为根节点,“特征属性
1”取值接近1的标记为“高”;然后,将“特征属性
1”取值不接近1的带有标签的聚类成员作为新一轮的标签集,继续分别计算剩余的两个特征属性的基尼系数,选择此时最小的“特征属性
2”作为内部结点;最后,余下的特征属性作为“特征属性
3...
【专利技术属性】
技术研发人员:徐秀芳,高婷,徐森,黄曙荣,花小朋,许贺洋,郭乃瑄,卞学胜,孙雯,刘轩绮,
申请(专利权)人:盐城工学院技术转移中心有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。