当前位置: 首页 > 专利查询>南昌大学专利>正文

一种处理密度分布不均匀数据集的免参数聚类方法技术

技术编号:37844855 阅读:10 留言:0更新日期:2023-06-14 22:28
本发明专利技术涉及数据挖掘技术领域,尤其涉及一种处理密度分布不均匀数据集的免参数聚类方法。根据自然邻居图算法将数据集划分出数据分片,并剔除全局离群点;给出噪声分片的定义,并将数据集中的噪声分片剔除;根据DBSCAN算法对每一个数据分片进行聚类,现实密度分布不均匀数据的聚类。本发明专利技术方法具备去除全局离群点和局部离群点的功能,有更好的抗噪性和鲁棒性;无需设定初始参数,可以根据不同的数据集调整中间参数,解决了参数难设定的问题;提供了一种处理密度分布不均匀数据集的聚类方法,实现了对密度不均匀数据集的自动聚类,并提高了聚类精度。类精度。类精度。

【技术实现步骤摘要】
一种处理密度分布不均匀数据集的免参数聚类方法


[0001]本专利技术涉及数据挖掘
,尤其涉及一种处理密度分布不均匀数据集的免参数聚类方法。

技术介绍

[0002]聚类是数据挖掘领域的一个研究方向,能够应用于数据分析、商业、医疗等诸多领域,其主要目标是将给定的数据自动划分为不同的类别,并发现其中可能存在的潜在知识。
[0003]基于密度的聚类算法是聚类算法的一个重要分支,且拥有着可以发现任意形状簇的优势。然而,基于密度的聚类算法也存在较为明显的缺陷:一则,算法的参数难以确定;二来,无法高效地处理密度分布不均匀的数据集。因此,为解决上述问题,本申请提出一种处理密度分布不均匀数据集的免参数聚类方法。

技术实现思路

[0004]为克服上述现有技术的不足,本专利技术提供了一种处理密度分布不均匀数据集的免参数聚类方法,实现对密度不均匀数据集的自动聚类,提高聚类精度。
[0005]为了实现上述目的,本专利技术所采用的技术方案是:
[0006]本专利技术的目的是提供一种处理密度分布不均匀数据集的免参数聚类方法,包括如下步骤:
[0007]S1、利用NaNG算法,获取NaNE参数;
[0008]S2、剔除全局离群点,并且将整个数据集划分为密度不一致的数据分片;
[0009]S3、给出噪声分片的定义,并剔除数据集中噪声分片;
[0010]S4、利用LOF算法求取各数据分片中每个点的离群点系数,剔除局部离群点;
[0011]S5、根据参数NaNE获取每个分片的MinPts和Eps参数,利用DBSCAN算法对每个数据分片进行聚类;
[0012]S6、获取最终的聚类结果并输出。
[0013]进一步地,所述S1中包括以下步骤:
[0014]S1

1,初始化k=1;
[0015]S1

2,求解当前k值情况下每个元素的互邻居;
[0016]S1

3,判断是否达到稳定搜索状态,执行如下操作:
[0017]若未达稳定状态,则k=k+1,跳转至S1
‑2[0018]若达稳定状态,则跳转至S1

4;
[0019]S1

4,NaNE=k。
[0020]进一步地,所述S2中包括以下步骤:
[0021]S2

1,定义没有自然邻居的元素为全局离群点,剔除所有全局离群点;
[0022]S2

2,将数据集中可以通过自然邻居相互联系在一起的元素归于同一个数据分片,进而把数据集分成若干个数据分片Seg1,Seg2,

,Seg
L

[0023]进一步地,所述S3中包括以下步骤:
[0024]S3

1,给出噪声分片的公式如下:
[0025]Noise

Seg={Seg
i
|if|Seg
i
|≤NaNE},i=1,2,...,L
[0026]其中,|Seg
i
|表示数据分片Seg
i
中的元素个数;
[0027]S3

2,剔除噪声分片。
[0028]进一步地,所述S4中包括以下步骤:
[0029]S4

1,令k=NaNE,利用LOF算法获取各数据分片中每个点的离群点系数;
[0030]S4

2,给出局部离群点的定义如下:
[0031]Local

Outlier={x
i
|if Lof(x
i
)≥2},i=1,2,...,M
[0032]其中,x
i
代表该数据分片中的第i个元素;
[0033]Lof(x
i
)代表x
i
这个元素的局部离群系数;
[0034]S4

3,剔除每个分片中的局部离群点。
[0035]进一步地,所述S5中包括以下步骤:
[0036]S5

1,设已获得M个数据分片Seg1,Seg2,

,Seg
M
,令第i个数据分片的MinPts为MinPts(Seg
i
)=NaNE;
[0037]S5

2,根据自然邻居本征值获取各数据分片的Eps参数,令第i个数据分片的Eps为该数据分片的平均自然邻居距离,其计算方法公式如下:
[0038][0039]其中,j代表数据分片Seg
i
中的元素个数;
[0040]X
m
代表数据分片Seg
i
中的第m个元素;
[0041]NaNE

distance(x
m
)代表数据分片Seg
i
中第m个元素的自然邻居距离;
[0042]S5

3,根据参数MinPts(Seg
i
)和Eps(Seg
i
),利用DBCAN算法对数据分片Seg
i
进行聚类,得到各个数据分片的聚类结果。
[0043]与现有技术相比,本专利技术具有的有益效果是:具备去除全局离群点和局部离群点的功能,有更好的抗噪性和鲁棒性;无需设定初始参数,可以根据不同的数据集调整中间参数,解决了参数难设定的问题;提供了一种处理密度分布不均匀数据集的聚类方法,实现了对密度不均匀数据集的自动聚类,并提高了聚类精度。
附图说明
[0044]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0045]图1为本专利技术的流程示意图;
[0046]图2为在四个数据集下分别对四种聚类方法的ARI值进行比较的示意图;
[0047]图3为在四个数据集下分别对四种聚类方法的Purity值进行比较的示意图。
具体实施方式
[0048]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0049]下面结合附图(图1

3)和具体实施方式对本专利技术技术方案做进一步详细的描述。
[0050]实施例1:
[0051]S1、将NaNG算法分别作用于四个实验数据集,并获取各个数据集的NaNE参数,实验数据集如下表所示;
[0052]数据集AggregationD31FlameR15样本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种处理密度分布不均匀数据集的免参数聚类方法,其特征在于,包括以下步骤:S1、利用NaNG算法,获取NaNE参数;S2、剔除全局离群点,并且将整个数据集划分为密度不一致的数据分片;S3、给出噪声分片的定义,并剔除数据集中噪声分片;S4、利用LOF算法求取各数据分片中每个点的离群点系数,剔除局部离群点;S5、根据参数NaNE获取每个分片的MinPts和Eps参数,利用DBSCAN算法对每个数据分片进行聚类;S6、获取最终的聚类结果并输出。2.根据权利要求1所述的免参数聚类方法,其特征在于,所述S1中包括以下步骤:S1

1,初始化k=1;S1

2,求解当前k值情况下每个元素的互邻居;S1

3,判断是否达到稳定搜索状态,执行如下操作:若未达稳定状态,则k=k+1,跳转至S1

2若达稳定状态,则跳转至S1

4;S1

4,NaNE=k。3.根据权利要求1所述的免参数聚类方法,其特征在于,所述S2中包括以下步骤:S2

1,定义没有自然邻居的元素为全局离群点,剔除所有全局离群点;S2

2,将数据集中可以通过自然邻居相互联系在一起的元素归于同一个数据分片,进而把数据集分成若干个数据分片Seg1,Seg2,

,Seg
L
。4.根据权利要求1所述的免参数聚类方法,其特征在于,所述S3中包括以下步骤:S3

1,给出噪声分片的公式如下:Noise

Seg={Seg
i
|if|Seg
i
|≤NaNE},i=1,2,...,L其中,|Seg
i
|表示数据分片Seg
i
中的元素个数;S3

2...

【专利技术属性】
技术研发人员:谢旭明段文影徐伟黄志鹏舒芬
申请(专利权)人:南昌大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1