【技术实现步骤摘要】
一种基于局部可达密度的密度峰值聚类方法
本专利技术属于聚类算法领域,特别涉及一种基于局部可达密度的密度峰值聚类方法。
技术介绍
聚类分析,也称为无监督分类,是在没有先验信息的情况下对数据的原始探索。这是一种机器学习技术,试图寻找未标记数据的特征,并根据相似性将新样本分配给有限数量的离散的无监督类别之一。聚类分析方法主要包括分层,分区,基于密度,基于模型,基于网格和图论的方法,所有方法都遵循以下原则:同一群集中的模式应彼此相似,而不同群集中的模式则不应相似。分区聚类方法大多是基于距离的,该方法首先要给定需要构建的分区和一个初始的分区方法,然后通过反复迭代改变分组,使得迭代后每一次的分组较之之前都好,直至收敛。层次聚类方法可以是基于距离的,也可以是基于密度或连通性的。该类方法对数据集进行层次分解,随后迭代将互相临近的组合并,直至满足某特定条件。基于密度的聚类方法都是基于密度的,而非距离,这使得该类方法可以克服基于距离的方法一般只能发现凸集聚类的缺点,而可以发现任意形状的聚类。其指导思想是只要某个样本点的密度大于设定的阈值 ...
【技术保护点】
1.一种基于局部可达密度的密度峰值聚类方法,其特征在于,包括如下步骤:/n(1)首先利用数据集的距离矩阵计算样本的局部可达密度,生成决策图并判断聚类中心;/n(2)将样本依据局部可达密度降序排列,依次依照加权分配策略分配,从而完成对数据集的聚类。/n
【技术特征摘要】
1.一种基于局部可达密度的密度峰值聚类方法,其特征在于,包括如下步骤:
(1)首先利用数据集的距离矩阵计算样本的局部可达密度,生成决策图并判断聚类中心;
(2)将样本依据局部可达密度降序排列,依次依照加权分配策略分配,从而完成对数据集的聚类。
2.根据权利要求1所述的一种基于局部可达密度的密度峰值聚类方法,其特征在于,所述步骤(1)中利用数据集的距离矩阵计算样本的局部可达密度,生成决策图并判断聚类中心的具体方法如下:
(1.1)由待聚类数据集A计算得到距离矩阵D,结合给定的正整数k,得到各个样本的第k距离邻域,并由此计算局部可达密度,记作lrd;
(1.2)对于已知的lrd,计算出对应的距离δ,以lrd为横坐标,δ为纵坐标生成决策图,对决策系数γ进行判断,得到聚类中心的集合序列C,非聚类中心的样本集合记作U。
3.根据权利要求2所述的一种基于局部可达密度的密度峰值聚类方法,其特征在于,所述步骤(2)中完成对数据集的聚类的步骤如下:
对于已知的U,依照lrd的降序对其进行排序,依次得到样本lrd-weight取最大值时邻域点所属的集合Cj,将样本从U中取出,添加至Cj中,并判断是否满足准则:U为空集;若满足,则输出C;若不满足,则返回步骤2,重复步骤2~步骤3,直至满足终止准则。
4.根据权利要求3所述的一种基于局部可达密度的密度峰值聚类方法,其特征在于,所述步骤(1.1)中计算局部可达密度的具体方法如下:
(1.1.1)待聚类数据集A为电站锅炉历史运行数据,共25000组由24个监测量构成的样本;其中监测量包括若干位置处机组负荷、入炉煤热值、环境温度、排烟温度、氮氧化物排放量、飞灰含碳量、一次风压、二次风门开度、燃尽风门开度,磨煤机混合一次风量,空预器出口烟气氧量,空预器出口烟温,再热蒸汽温度,燃料量,送风机入口风温,再热器调温固定端电动执行机构反馈信号,过热器侧一级减温水气动执行机构反馈信号,风箱固定端电动执...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。