【技术实现步骤摘要】
一种基于自适应密度峰值聚类的工业数据划分方法及系统
[0001]本专利技术属于机器学习领域,尤其涉及一种基于自适应密度峰值聚类的工业数据划分方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]在工业生产过程中,工业设备的每个环节都在源源不断的产生工业数据,这些数据往往被实时采集起来暂存在内存里,然后将概要数据信息保存在后台数据库中,对于这么大体量的数据“宝藏”,大多数企业只是对其表面进行运算统计,并没有挖掘出其内部隐藏的价值。综上所述,对工业数据进行处理进而发掘其潜在信息有着十分重要的现实意义。
[0004]数据挖掘中的有监督学习或半监督学习方法进行处理需要对数据进行预标注,而对大量的工业数据进行标注是一件费时费力的工作。聚类作为一种无监督学习方法,不需要对数据进行预标注,通过计算数据之间的相似度,将相似度高的数据归入一簇,从中发掘有价值的信息。现有的聚类方法大致可以分为五种:基于划分的聚类、基于网格的聚类、基于密度的聚类、基于层次的聚类、基于模型的聚类。其中基于密度的聚类方法由于其在处理具有任意形状和不同尺寸的数据上具有更好的优势,所以更适用于工业数据的分布特征。密度峰值聚类算法作为一种新颖的密度聚类算法,凭借着可以迅速发现聚类中心且分配过程无需迭代的优势近年来备受关注。
[0005]专利技术人发现,密度峰值聚类算法在处理工业数据时,有以下几个缺陷:首先,密度峰值聚类算法对数据进行聚类操作时,需要人工事先设定簇的个数, ...
【技术保护点】
【技术特征摘要】
1.一种基于自适应密度峰值聚类的工业数据划分方法,其特征在于,包括如下步骤:获取工业设备用电数据;基于工业设备用电数据和自适应密度峰值聚类算法进行聚类得到数据划分结果;其中,所述自适应密度峰值聚类算法的构建过程为:引入数据点的共享邻居计算数据点的局部域密度;结合数据点的局部域密度,引入密度衰减现象,通过密度衰减现象将数据点自适应地汇聚成微簇;采用两阶段分配策略代替一阶段分配策略,对数据进行划分,第一阶段,将微簇合并形成簇主干,第二阶段,用第一阶段已分配的簇主干指导第二步剩余数据点的分配。2.如权利要求1所述的一种基于自适应密度峰值聚类的工业数据划分方法,其特征在于,所述数据点的局部域密度的计算过程为:计算任意两个数据之间的共享邻居得到共享邻居集合;基于共享邻居集合,定义数据点之间的相似度;基于数据点之间的相似度得到任意数据点的局部域密度。3.如权利要求1所述的一种基于自适应密度峰值聚类的工业数据划分方法,其特征在于,所述结合数据点的局部域密度,引入密度衰减现象,通过密度衰减现象将数据点自适应地汇聚成微簇,具体包括:结合密度衰减现象的特点,基于数据点之间满足的局部域密度关系进行筛选,得到密度衰减点;将任意一个数据点的所有密度衰减点合并作为该数据点的密度衰减集。4.如权利要求3所述的一种基于自适应密度峰值聚类的工业数据划分方法,其特征在于,所述基于数据点之间满足的局部域密度关系为:如果点P
i
和点P
j
满足:存在一个路径P1=P
i
,
………
,P
n
=P
j
,如果任意一个P
k
(1<=k<=n)都满足ρ
k
>ρ
(k+1)
,且P
(k+1)
是P
k
的K近邻,则称点P
j
是点P
i
密度衰减点,其中,P
k
为第k个数据点,ρ
k
为第k个数据点对应的局部域密度,ρ
(k+1)
为第k+1个数据点对应的局部域密度。5.如权利要求1所述的一种基于自适应密度...
【专利技术属性】
技术研发人员:杜韬,王心耕,周劲,杨晓晖,陈迪,仵匀政,
申请(专利权)人:济南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。