【技术实现步骤摘要】
一种基于信息熵权重两支决策优化的数据聚类集成方法
本专利技术属于数据挖掘、机器学习领域中对研究对象或数据的聚类方法研究。
技术介绍
聚类集成方法是一种有效的聚类技术,基于聚类权重信息熵的集成策略是其中的一种有效的新型集成聚类方法。但是该方法存在聚类效果对基础聚类敏感的问题。基于聚类权重信息熵的集成策略主要方法为:基于某个特定数据集合对象,采用普通聚类方法实施M次聚类生成M种基础聚类,并且利用信息熵方法确定各个基础聚类及各个类簇的权重。基于上述基础聚类及其权重构建上述数据集合元素间的带权距离矩阵。然后以带权距离矩阵为基础,采用传统层次聚类或其它经典聚类方法,不断聚合高权重元素群体,直至获得最终聚类。对于聚类结果优劣程度的评判多采用NMI指标,NMI取值在0到1之间,数值越大,聚类效果越好。选取一个聚类结果πG作为评判标准,那么对于测试集聚类元素π'有如下计算公式:其中n'是π'中的类簇个数,nG是πG中的类簇个数,ni'是π'中第i个类簇的元素个数,njG是πG中第j个类簇的元素个数,nij是π'中第i个类簇和πG中第j个类簇共同元素的个数。
技术实现思路
基础聚类是集 ...
【技术保护点】
1.一种基于信息熵权重两支决策优化的数据聚类集成方法,其特征在于,包括以下步骤:(1)集成聚类成员初步生成;(2)基于两支决策思想的局部权重算法处理基础聚类成员;(3)基于最终的基础聚类集合的聚类集成;(4)结束。
【技术特征摘要】
1.一种基于信息熵权重两支决策优化的数据聚类集成方法,其特征在于,包括以下步骤:(1)集成聚类成员初步生成;(2)基于两支决策思想的局部权重算法处理基础聚类成员;(3)基于最终的基础聚类集合的聚类集成;(4)结束。2.根据权利要求1所述的一种基于信息熵权重两支决策优化的数据聚类集成方法,其特征在于,步骤(1)所述集成聚类成员初步生成,其步骤为:1)利用数据聚类算法对数据集D={d1,d2,...,dx}做聚类操作;2)将聚类次数控制参数m置初值为1;3)判断控制参数m是否小于或等于备选聚类成员个数M,是则执行步骤4,否则转到步骤6);4)得到第m次聚类记为其中集合πm的基数个数为|πm|记为Nm;5)将控制参数m执行m=m+1,然后转到步骤3);6)生成备选的备选聚类集合将所有备选聚类成员Π={π1,π2,...,πM}标上不确定标记;7)结束。3.根据权利要求1所述的一种基于信息熵权重两支决策优化的数据聚类集成方法,其特征在于,步骤(2)所述基于两支决策思想的局部权重算法处理基础聚类成员,其步骤为:1)设置控制参数r初值为1,设置循环次数限制k;2)判断控制参数r是否小于或等于k,若是则执行下一步骤,否则将Π中所有元素都标上确定标记并且转到步骤10;3)计算Π={π1,π2,...,πM}中标有不确定标记聚类的任何一个类簇πm∈Π,相对于Π中所有聚类的不确定信息熵,其计算公式为:其中1≤m≤M,1≤n≤NM;1≤μ≤M,1≤j≤NM,|*|为集合*的元素个数;4)计算步骤3中得到的πm中每个类簇的平均值;其计算公式为:其中Nm=|πm|;5)计算步骤3中得到的备选聚类πm中的标准差;其计算公式为:6)使用公式W(*)=e-*归一化获得每个聚类中类簇的不确定信息熵平均值Ψ(πm)和标准差σ(πm),作为每个聚类的二种权重W(Ψ(πm))和W(σ(πm)),使得二个权...
【专利技术属性】
技术研发人员:徐健锋,王文国,刘斓,梁伟,吴俊杰,
申请(专利权)人:南昌大学,
类型:发明
国别省市:江西,36
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。