基于成员选择的簇加权聚类集成方法技术

技术编号：39742420 阅读：10 留言：0更新日期：2023-12-17 23:42

本发明专利技术公开了一种基于成员选择的簇加权聚类集成方法，包括：构建聚类成员集合；将聚类成员集合输入预先训练好的决策树模型中，输出聚类成员集合中每个聚类成员的标签，筛选出标签为预先标签的聚类成员，生成目标聚类集体；确定目标聚类集体中每个簇的簇层加权系数；根据簇层加权系数确定目标聚类集体的目标

全部详细技术资料下载

【技术实现步骤摘要】
基于成员选择的簇加权聚类集成方法

[0001]本专利技术涉及数据聚类
，特别涉及一种基于成员选择的簇加权聚类集成方法
。

技术介绍

[0002]聚类分析是机器学习研究的热点之一，被广泛用于数据压缩
、
信息检索
、
图像分割和文本聚类，在生物学
、
地质学
、
地理学和异常数据检测等领域受到越来越多的关注
。
聚类分析是一种无监督的机器学习，事先缺少对数据集的先验知识，仅依据数据点
、
样本
、
对象之间的相似性度量将数据集自动分为若干个分组或者簇，使得属于相同簇的点之间的相似度尽量高，而属于不同簇的点之间的相似度尽量低
。
聚类集成是将集成学习思想引入到聚类分析之中，从而开启了聚类集成研究
。
主要分为两步：第一步把数据集作为输入，运行聚类算法，输出多个不同的聚类结果，这一步称为聚类成员生成；第二步把所有聚类成员构成的集合，即聚类集体，作为输入，对它们进行组合，输出最终的聚类结果，这一步称为聚类集成，也称为共识函数设计
。
[0003]聚类算法：作为成员选择的基础，常用的聚类算法包括
K
‑
means、DBSCAN、
层次聚类等
。
这些聚类算法可以将数据点分配到不同的簇中
。
选择方法：用于选择参与集成的聚类成员
。
常见的成员选择方法包括基于聚类性能的选择，如...

【技术保护点】

【技术特征摘要】
1.
一种基于成员选择的簇加权聚类集成方法，其特征在于，包括：构建聚类成员集合；将聚类成员集合输入预先训练好的决策树模型中，输出聚类成员集合中每个聚类成员的标签，筛选出标签为预先标签的聚类成员，生成目标聚类集体；确定目标聚类集体中每个簇的簇层加权系数；根据簇层加权系数确定目标聚类集体的目标
CA
矩阵；根据目标
CA
矩阵执行层次聚类算法，得到最终的聚类结果
。2.
如权利要求1所述的基于成员选择的簇加权聚类集成方法，其特征在于，构建聚类成员集合，包括：获取聚类成员个数
r
和聚类个数
k
；初始化
i
＝1；判断
i
是否小于等于
r
；在确定
i
是小于等于
r
时，使用
K
‑
Means
算法聚类，生成聚类成员，得到聚类结果；赋值
i
＝
i+1
，继续判断，直至
i
不是小于等于
r
时，构建聚类成员集合
。3.
如权利要求1所述的基于成员选择的簇加权聚类集成方法，其特征在于，得到预先训练好的决策树模型的方法，包括：获取样本聚类成员集合；计算样本聚类成员集合中每个样本聚类成员的
Davies
‑
Bouldin
指数，并求出整体的平均值；将每个样本聚类成员的
Davies
‑
Bouldin
指数分别与平均值进行比较，给
Davies
‑
Bouldin
指数低于平均值的样本聚类成员打上“高”的标签，给
Davies
‑
Bouldin
指数高于平均值的样本聚类成员打上“低”的标签；基于带有标签的样本聚类成员作为训练集进行训练，得到训练好的决策树模型
。4.
如权利要求3所述的基于成员选择的簇加权聚类集成方法，其特征在于，基于带有标签的样本聚类成员作为训练集进行训练，得到训练好的决策树模型，包括：确定每个样本聚类成员的
ARI、NMI
及
F
‑
measure
指数，并作为特征属性集；
ARI
的取值范围为
[
‑
1,1]
，
NMI
和
F
‑
measure
指数的取值范围为
[0,1]
；计算特征属性集中关于
ARI、NMI
及
F
‑
measure
指数三个方面的基尼系数，并进行比较，选择基尼系数最小的“特征属性
1”作为根节点，“特征属性
1”取值接近1的标记为“高”；然后，将“特征属性
1”取值不接近1的带有标签的聚类成员作为新一轮的标签集，继续分别计算剩余的两个特征属性的基尼系数，选择此时最小的“特征属性
2”作为内部结点；最后，余下的特征属性作为“特征属性
3...

【专利技术属性】
技术研发人员：徐秀芳，高婷，徐森，黄曙荣，花小朋，许贺洋，郭乃瑄，卞学胜，孙雯，刘轩绮，
申请(专利权)人：盐城工学院技术转移中心有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人