【技术实现步骤摘要】
基于密度改进的BIRCH聚类算法研究
[0001]本专利技术涉及聚类分析
,主要是对
BIRCH
聚类算法进行聚类优化
。
技术介绍
[0002]聚类分析是数据挖掘中的一个重要领域,它是一种无监督的学习方法,它通过一定的规则将数据按照定义的相似性划分为若干个类或簇,这些类或簇是由许多在性质上相似的数据点构成的
。
同一个类中的数据彼此相似,而与其它类中的数据相异
。
聚类分析还可以作为独立的数据挖掘工具来了解数据分布
。
聚类算法可以分为基于划分的方法
、
基于密度的方法
、
基于层次的方法
、
基于网格的方法等
。
[0003]BIRCH
算法是
1996
年由
Tian Zhang、Ramakrishnan、Linvy
提出来的一种组合层次聚类算法,
BIRCH
算法是通过聚类特征来构建一棵聚类特征树
。
截至到目前国内外已经有很多学者提出了对
BIRCH
算法的改进
。
其中有一些包括:改进聚类特征的计算方式
、
阈值方面的改变
、
对混合型数据集的适应
、
与其他聚类算法的结合等
。
[0004]虽然
BIRCH
算法在时间复杂度上有显著的优势,但它是一种基于距离的层次聚类,所以它对于非球 ...
【技术保护点】
【技术特征摘要】
1.
基于密度改进的
BIRCH
聚类算法研究,包括以下步骤:步骤1:用
DBSCAN
算法求出数据的密度,包括核心点
、
边界点
、
噪声点
。
步骤2:
DBSCAN
算法将不属于任何簇的点标记为噪声点,因此先将噪声点排除,不参加聚类
。
步骤3:将核心点和边界点定义为高密度点和低密度点
。
步骤4:用
BIRCH
算法对高密度点和低密度点进行聚类,形成高密度点簇和低密度点簇
。
步骤5:将高密度点簇和低密度点簇进行合并,形成更大的簇
。
步骤6:对噪声点进行处理
。2.
根据权利要求1所述的基于密度改进的
BIRCH
聚类算法研究,其特征在于:所述步骤1中,用
DBSCAN
算法求出数据的密度,包括核心点
、
边界点
、
噪声点
。
点的密度是一定区域内点的数目
。
给定一个样本点
p
,它的局部密度就是以
p
为圆心
、
半径为
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。