【技术实现步骤摘要】
一种处理密度分布不均匀数据集的免参数聚类方法
[0001]本专利技术涉及数据挖掘
,尤其涉及一种处理密度分布不均匀数据集的免参数聚类方法。
技术介绍
[0002]聚类是数据挖掘领域的一个研究方向,能够应用于数据分析、商业、医疗等诸多领域,其主要目标是将给定的数据自动划分为不同的类别,并发现其中可能存在的潜在知识。
[0003]基于密度的聚类算法是聚类算法的一个重要分支,且拥有着可以发现任意形状簇的优势。然而,基于密度的聚类算法也存在较为明显的缺陷:一则,算法的参数难以确定;二来,无法高效地处理密度分布不均匀的数据集。因此,为解决上述问题,本申请提出一种处理密度分布不均匀数据集的免参数聚类方法。
技术实现思路
[0004]为克服上述现有技术的不足,本专利技术提供了一种处理密度分布不均匀数据集的免参数聚类方法,实现对密度不均匀数据集的自动聚类,提高聚类精度。
[0005]为了实现上述目的,本专利技术所采用的技术方案是:
[0006]本专利技术的目的是提供一种处理密度分布不均匀数据集的免参数聚类方法,包括如下步骤:
[0007]S1、利用NaNG算法,获取NaNE参数;
[0008]S2、剔除全局离群点,并且将整个数据集划分为密度不一致的数据分片;
[0009]S3、给出噪声分片的定义,并剔除数据集中噪声分片;
[0010]S4、利用LOF算法求取各数据分片中每个点的离群点系数,剔除局部离群点;
[0011]S5、根据参数NaNE获取每个 ...
【技术保护点】
【技术特征摘要】
1.一种处理密度分布不均匀数据集的免参数聚类方法,其特征在于,包括以下步骤:S1、利用NaNG算法,获取NaNE参数;S2、剔除全局离群点,并且将整个数据集划分为密度不一致的数据分片;S3、给出噪声分片的定义,并剔除数据集中噪声分片;S4、利用LOF算法求取各数据分片中每个点的离群点系数,剔除局部离群点;S5、根据参数NaNE获取每个分片的MinPts和Eps参数,利用DBSCAN算法对每个数据分片进行聚类;S6、获取最终的聚类结果并输出。2.根据权利要求1所述的免参数聚类方法,其特征在于,所述S1中包括以下步骤:S1
‑
1,初始化k=1;S1
‑
2,求解当前k值情况下每个元素的互邻居;S1
‑
3,判断是否达到稳定搜索状态,执行如下操作:若未达稳定状态,则k=k+1,跳转至S1
‑
2若达稳定状态,则跳转至S1
‑
4;S1
‑
4,NaNE=k。3.根据权利要求1所述的免参数聚类方法,其特征在于,所述S2中包括以下步骤:S2
‑
1,定义没有自然邻居的元素为全局离群点,剔除所有全局离群点;S2
‑
2,将数据集中可以通过自然邻居相互联系在一起的元素归于同一个数据分片,进而把数据集分成若干个数据分片Seg1,Seg2,
…
,Seg
L
。4.根据权利要求1所述的免参数聚类方法,其特征在于,所述S3中包括以下步骤:S3
‑
1,给出噪声分片的公式如下:Noise
‑
Seg={Seg
i
|if|Seg
i
|≤NaNE},i=1,2,...,L其中,|Seg
i
|表示数据分片Seg
i
中的元素个数;S3
‑
2...
【专利技术属性】
技术研发人员:谢旭明,段文影,徐伟,黄志鹏,舒芬,
申请(专利权)人:南昌大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。