当前位置: 首页 > 专利查询>济南大学专利>正文

一种基于自适应密度峰值聚类的工业数据划分方法及系统技术方案

技术编号:38395876 阅读:10 留言:0更新日期:2023-08-07 11:10
本发明专利技术属于机器学习领域,提供了一种基于自适应密度峰值聚类的工业数据划分方法及系统,其方案为:基于工业设备用电数据和自适应密度峰值聚类算法进行聚类得到数据划分结果;其中,所述自适应密度峰值聚类算法的构建过程为:引入数据点的共享邻居调整数据点之间的距离度量值,计算数据点的局部域密度;结合数据点的局部域密度,引入密度衰减现象,通过密度衰减现象将数据点自适应地汇聚成微簇;采用两阶段分配策略代替一阶段分配策略,对数据进行划分,第一阶段,将微簇合并形成簇主干,第二阶段,用第一阶段已分配的簇主干指导第二步剩余数据点的分配。数据点的分配。数据点的分配。

【技术实现步骤摘要】
一种基于自适应密度峰值聚类的工业数据划分方法及系统


[0001]本专利技术属于机器学习领域,尤其涉及一种基于自适应密度峰值聚类的工业数据划分方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]在工业生产过程中,工业设备的每个环节都在源源不断的产生工业数据,这些数据往往被实时采集起来暂存在内存里,然后将概要数据信息保存在后台数据库中,对于这么大体量的数据“宝藏”,大多数企业只是对其表面进行运算统计,并没有挖掘出其内部隐藏的价值。综上所述,对工业数据进行处理进而发掘其潜在信息有着十分重要的现实意义。
[0004]数据挖掘中的有监督学习或半监督学习方法进行处理需要对数据进行预标注,而对大量的工业数据进行标注是一件费时费力的工作。聚类作为一种无监督学习方法,不需要对数据进行预标注,通过计算数据之间的相似度,将相似度高的数据归入一簇,从中发掘有价值的信息。现有的聚类方法大致可以分为五种:基于划分的聚类、基于网格的聚类、基于密度的聚类、基于层次的聚类、基于模型的聚类。其中基于密度的聚类方法由于其在处理具有任意形状和不同尺寸的数据上具有更好的优势,所以更适用于工业数据的分布特征。密度峰值聚类算法作为一种新颖的密度聚类算法,凭借着可以迅速发现聚类中心且分配过程无需迭代的优势近年来备受关注。
[0005]专利技术人发现,密度峰值聚类算法在处理工业数据时,有以下几个缺陷:首先,密度峰值聚类算法对数据进行聚类操作时,需要人工事先设定簇的个数,而工业数据随着时间的推移会不断产生新的数据,并且数据的特性有可能会随时间推移而改变,例如簇的个数发生增减,很难做到事先给出确定的簇的个数;其次密度峰值算法簇中心需要手动选取,有很大的人为主观性;密度峰值聚类算法计算数据的度量值时未考虑数据分布的局部特征,而一般相邻的工业数据之间存在着较强的关联性;密度峰值聚类算法的单一分配策略易产生“多米诺效应”,即一个局部域密度较大的样本发生分配错误,则会导致以该点为上级数据点的样本发生同样的分配错误,有时会严重影响聚类结果,若投入到工业生产环境中可能会产生不可估量的损失。

技术实现思路

[0006]为了解决上述
技术介绍
中存在的至少一项技术问题,本专利技术提供一种基于自适应密度峰值聚类的工业数据划分方法及系统,其在解决密度峰值聚类算法存在的问题的同时使其更适配于处理工业数据,该方法簇个数的设定和簇中心的选取全由算法自适应完成,无需人工干预,并引入共享邻居充分考虑样本的局部特征,最后通过一种二阶段分配法,避免了数据分配时产生“多米诺效应”。
[0007]为了实现上述目的,本专利技术采用如下技术方案:
[0008]本专利技术的第一个方面提供一种基于自适应密度峰值聚类的工业数据划分方法,包括如下步骤:
[0009]获取工业设备用电数据;
[0010]基于工业设备用电数据和自适应密度峰值聚类算法进行聚类得到数据划分结果;其中,所述自适应密度峰值聚类算法的构建过程为:
[0011]引入数据点的共享邻居计算数据点的局部域密度;
[0012]结合数据点的局部域密度,引入密度衰减现象,通过密度衰减现象将数据点自适应地汇聚成微簇;
[0013]采用两阶段分配策略代替一阶段分配策略,对数据进行划分,第一阶段,将微簇合并形成簇主干,第二阶段,用第一阶段已分配的簇主干指导第二步剩余数据点的分配。
[0014]作为一种或多种实施例,所述数据点的局部域密度的计算过程为:
[0015]计算任意两个数据之间的共享邻居得到共享邻居集合;
[0016]基于共享邻居集合,定义数据点之间的相似度;
[0017]基于数据点之间的相似度得到任意数据点的局部域密度。
[0018]作为一种或多种实施例,所述结合数据点的局部域密度,引入密度衰减现象,通过密度衰减现象将数据点自适应地汇聚成微簇,具体包括:
[0019]结合密度衰减现象的特点,基于数据点之间满足的局部域密度关系进行筛选,得到密度衰减点;
[0020]将任意一个数据点的所有密度衰减点合并作为该数据点的密度衰减集。
[0021]作为一种或多种实施例,所述基于数据点之间满足的局部域密度关系为:
[0022]如果点P
i
和点P
j
满足:存在一个路径P1=P
i
,
………
,P
n
=P
j
,如果任意一个P
k
(1<=k<=n)都满足ρ
k
>ρ
(k+1)
,且P
(k+1)
是P
k
的K近邻,则称点P
j
是点P
i
密度衰减点,其中,P
k
为第k个数据点,ρ
k
为第k个数据点对应的局部域密度,ρ
(k+1)
为第k+1个数据点对应的局部域密度。
[0023]作为一种或多种实施例,所述将微簇合并形成簇主干的过程包括:
[0024]计算任意两个微簇之间的交点集;
[0025]根据处于交点集的数据点的局部域密度和合并阈值条件对微簇进行合并得到簇主干。
[0026]作为一种或多种实施例,所述合并阈值条件为:
[0027](1)C
u
中至少存在m
·
|C
u
|个点的密度小于数据点i的密度;
[0028](2)C
n
中至少存在m
·
|C
n
|个点的密度小于数据点i的密度;
[0029]其中,C
u
和C
n
为任意两个微簇,m为合并阈值,取值范围为0~1。
[0030]作为一种或多种实施例,所述用第一阶段已分配的簇主干指导第二步剩余数据点的分配,包括:将剩余数据点分配给其上级数据点所在的簇,若上级数据点也处于未分配状态,则继续遍历该点的上级数据点,直到查找到已分配的上级数据点为止,然后将该点分配给已分配的上级数据点所在的簇。
[0031]本专利技术的第二个方面提供一种基于自适应密度峰值聚类的工业数据划分系统,包括:
[0032]数据获取模块,用于获取工业设备用电数据;
[0033]数据划分模块,用于基于工业设备用电数据和自适应密度峰值聚类算法进行聚类
得到数据划分结果;其中,所述自适应密度峰值聚类算法的构建过程为:
[0034]引入数据点的共享邻居调整数据点之间的距离度量值,计算数据点的局部域密度;
[0035]结合数据点的局部域密度,引入密度衰减现象,通过密度衰减现象将数据点自适应地汇聚成微簇;
[0036]采用两阶段分配策略代替一阶段分配策略,对数据进行划分,第一阶段,将微簇合并形成簇主干,第二阶段,用第一阶段已分配的簇主本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自适应密度峰值聚类的工业数据划分方法,其特征在于,包括如下步骤:获取工业设备用电数据;基于工业设备用电数据和自适应密度峰值聚类算法进行聚类得到数据划分结果;其中,所述自适应密度峰值聚类算法的构建过程为:引入数据点的共享邻居计算数据点的局部域密度;结合数据点的局部域密度,引入密度衰减现象,通过密度衰减现象将数据点自适应地汇聚成微簇;采用两阶段分配策略代替一阶段分配策略,对数据进行划分,第一阶段,将微簇合并形成簇主干,第二阶段,用第一阶段已分配的簇主干指导第二步剩余数据点的分配。2.如权利要求1所述的一种基于自适应密度峰值聚类的工业数据划分方法,其特征在于,所述数据点的局部域密度的计算过程为:计算任意两个数据之间的共享邻居得到共享邻居集合;基于共享邻居集合,定义数据点之间的相似度;基于数据点之间的相似度得到任意数据点的局部域密度。3.如权利要求1所述的一种基于自适应密度峰值聚类的工业数据划分方法,其特征在于,所述结合数据点的局部域密度,引入密度衰减现象,通过密度衰减现象将数据点自适应地汇聚成微簇,具体包括:结合密度衰减现象的特点,基于数据点之间满足的局部域密度关系进行筛选,得到密度衰减点;将任意一个数据点的所有密度衰减点合并作为该数据点的密度衰减集。4.如权利要求3所述的一种基于自适应密度峰值聚类的工业数据划分方法,其特征在于,所述基于数据点之间满足的局部域密度关系为:如果点P
i
和点P
j
满足:存在一个路径P1=P
i
,
………
,P
n
=P
j
,如果任意一个P
k
(1<=k<=n)都满足ρ
k
>ρ
(k+1)
,且P
(k+1)
是P
k
的K近邻,则称点P
j
是点P
i
密度衰减点,其中,P
k
为第k个数据点,ρ
k
为第k个数据点对应的局部域密度,ρ
(k+1)
为第k+1个数据点对应的局部域密度。5.如权利要求1所述的一种基于自适应密度...

【专利技术属性】
技术研发人员:杜韬王心耕周劲杨晓晖陈迪仵匀政
申请(专利权)人:济南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1