基于密度改进的制造技术

技术编号:39817307 阅读:10 留言:0更新日期:2023-12-22 19:36
本发明专利技术涉及一种基于密度的层次聚类算法改进研究

【技术实现步骤摘要】
基于密度改进的BIRCH聚类算法研究


[0001]本专利技术涉及聚类分析
,主要是对
BIRCH
聚类算法进行聚类优化


技术介绍

[0002]聚类分析是数据挖掘中的一个重要领域,它是一种无监督的学习方法,它通过一定的规则将数据按照定义的相似性划分为若干个类或簇,这些类或簇是由许多在性质上相似的数据点构成的

同一个类中的数据彼此相似,而与其它类中的数据相异

聚类分析还可以作为独立的数据挖掘工具来了解数据分布

聚类算法可以分为基于划分的方法

基于密度的方法

基于层次的方法

基于网格的方法等

[0003]BIRCH
算法是
1996
年由
Tian Zhang、Ramakrishnan、Linvy
提出来的一种组合层次聚类算法,
BIRCH
算法是通过聚类特征来构建一棵聚类特征树

截至到目前国内外已经有很多学者提出了对
BIRCH
算法的改进

其中有一些包括:改进聚类特征的计算方式

阈值方面的改变

对混合型数据集的适应

与其他聚类算法的结合等

[0004]虽然
BIRCH
算法在时间复杂度上有显著的优势,但它是一种基于距离的层次聚类,所以它对于非球形的数据聚类效果并不好,需要配合上全局聚类的算法例如
DBSCAN
这种基于密度的算法才改善这种情况


技术实现思路

[0005]在针对上述提出的
BIRCH
聚类算法的缺陷,本文提出一种新的聚类策略,将数据的密度求出,按照密度高低分别对其进行聚类

具体步骤如下

[0006]先用
DBSCAN
算法求出数据的核心点

边界点

噪声点

[0007]DBSCAN
算法不会将噪声点分配到任何聚类中,将噪声点先排除,不参加接下来的聚类,这样做可以使得接下来的步骤相对较容易

[0008]将噪声点排除后,将核心点和边界点定义为高密度点和低密度点

[0009]在高密度点和低密度点区域分别用
BIRCH
算法进行聚类,形成高密度簇和低密度簇

[0010]对高密度簇和低密度簇进行合并,形成更大的簇

[0011]对于噪声点进行处理

对于噪声点的处理有两种:
1.
保留噪声点,
2.
不保留噪声点

附图说明
[0012]图1为
DBSCAN
聚类后的数据分布
[0013]图2为
DBSCAN
聚类排除噪声点后的数据分布
[0014]图3为
BIRCH
聚类高密度点的数据分布
[0015]图4为
BIRCH
聚类低密度点的数据分布
[0016]图5为高密度点和低密度点整体聚类的数据分布
具体实施方式
[0017]本专利技术基于密度改进的
BIRCH
聚类算法研究的聚类策略优化的具体实现步骤如下

[0018]步骤一

输入二维数据集
X

{x1,x2,x3

,xn}。
[0019]步骤二


DBSCAN
算法求出数据的核心点

边界点

噪声点

[0020]核心点是满足以下两个条件的数据点:
1.
在距离
ε
(epsilon)
内至少包含
MinPts
个数据点,包括它自己
。2.
这些
MinPts
个数据点必须分布在该点的邻域内,也就是距离不超过
ε
的范围内

核心点定义:
core(p,∈,MinPts)

{q∈D∣dist(p,q)≤∈},if|core(p,∈,MinPts)∣≥MinPts。
边界点是不满足核心点定义的数据点,但仍然在某个核心点的
ε
邻域内

边界点定义:
border(q,∈,MinPts)

{q∈D∣dist(p,q)≤∈},if 1≤∣core(p,∈,MinPts)∣<MinPts。
噪声点是既不是核心点也不是边界点的数据点

[0021]步骤三

根据步骤二中定义求出核心点密度,边界点密度,噪声点密度

[0022]步骤四

将步骤三中求出的噪声点排除,
DBSCAN
算法不会将噪声点分配到任何聚类中,将噪声点先排除,不参加接下来的聚类,这样做可以使得接下来的步骤相对较容易

[0023]步骤五

将步骤二求出的核心点

边界点重新定义为高密度点和低密度点,并用
BIRCH
算法对高密度点和低密度点进行聚类,形成高密度簇和低密度簇

[0024]步骤六

将步骤五中高密度簇和低密度簇进行簇的合并,形成更大的簇

[0025]步骤七

对噪声点进行处理

对于噪声点的处理有两种:
1.
保留噪声点,
2.
不保留噪声点

需要对不同的数据集进行分析后才能确定对噪声点的处理

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
基于密度改进的
BIRCH
聚类算法研究,包括以下步骤:步骤1:用
DBSCAN
算法求出数据的密度,包括核心点

边界点

噪声点

步骤2:
DBSCAN
算法将不属于任何簇的点标记为噪声点,因此先将噪声点排除,不参加聚类

步骤3:将核心点和边界点定义为高密度点和低密度点

步骤4:用
BIRCH
算法对高密度点和低密度点进行聚类,形成高密度点簇和低密度点簇

步骤5:将高密度点簇和低密度点簇进行合并,形成更大的簇

步骤6:对噪声点进行处理
。2.
根据权利要求1所述的基于密度改进的
BIRCH
聚类算法研究,其特征在于:所述步骤1中,用
DBSCAN
算法求出数据的密度,包括核心点

边界点

噪声点

点的密度是一定区域内点的数目

给定一个样本点
p
,它的局部密度就是以
p
为圆心

半径为

【专利技术属性】
技术研发人员:张虎宾何云斌李想
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1