The invention discloses a local core point clustering algorithm based on parallel natural neighborhood, which includes the following steps: S1: constructing KD_tree for data sets by fast sorting method; S2: obtaining neighborhood information of each data object by parallel natural neighborhood search algorithm; S3: obtaining local core points by calculating the density of each data object; S4: computing local core points; Distance between points; S5: Constructing decision maps to achieve clustering of local core points; S6: Distributing non-local core points to achieve clustering of data sets. The distance between local core points based on shared neighborhood is defined by the present invention, which improves the efficiency of clustering algorithm.
【技术实现步骤摘要】
一种基于并行自然邻的局部核心点聚类算法
本专利技术涉及数据挖掘
,特别涉及一种基于并行自然邻的局部核心点聚类算法。
技术介绍
聚类分析是数据挖掘的一种重要方法,其目的是将数据对象划分成不同的类,使得在同一个类簇中的对象彼此相似,而在不同类簇中的对象彼此不同。聚类分析被广泛地应用于大数据、模式识别、图像处理和人工智能等领域。因此对聚类分析算法的研究具有重要的意义。现有的聚类算法大致可以分为基于划分的方法、基于密度的方法、基于层次的方法、基于网格的方法和基于模型的方法等。近年来,基于中心的聚类算法逐渐成为研究的热点。基于划分的方法,如K-means算法和K-medoids算法等,也称为基于中心的聚类算法。但是K-means算法和K-medoids算法的聚类结果很容易受初始簇中心的影响,不同的初始簇中心可能会得到差异较大的聚类结果。为了避免初始簇中心的选择,Frey和Dueck提出了AP算法,该算法将所有的数据对象都当作潜在的簇中心,然后通过数据对象之间的信息传递找到最优的聚类中心。但是AP算法的聚类结果容易受到preference参数的影响,为了解决该问题,K-AP算法被提出。它通过引入一个约束条件,利用K个簇的中间结果进行聚类。但是AP算法和K-AP算法都无法识别非球形的簇。一个基于密度适应和谱维度约减的AP聚类算法DAAP算法被提出来,用于解决该问题,但是由于需要计算所有对象之间的最短路径,因此其具有较高的时间复杂度。Rodriguez和Laio于2014年在《Science》上提出了一种快速查找密度峰DP的聚类算法。该算法认为聚类中心被具有较低密度 ...
【技术保护点】
1.一种基于并行自然邻的局部核心点聚类算法,其特征在于,包括以下几个步骤:S1:采用快速排序法对数据集进行KD‑树的构建;S2:采用并行的自然邻搜索算法,获取每个数据对象的邻域信息;S3:通过计算每个数据对象的密度从而获取局部核心点;S4:计算局部核心点之间的共享近邻的距离;S5:构造决策图,实现局部核心点的聚类;S6:分配非局部核心点,实现数据集中所有数据对象的聚类。
【技术特征摘要】
1.一种基于并行自然邻的局部核心点聚类算法,其特征在于,包括以下几个步骤:S1:采用快速排序法对数据集进行KD-树的构建;S2:采用并行的自然邻搜索算法,获取每个数据对象的邻域信息;S3:通过计算每个数据对象的密度从而获取局部核心点;S4:计算局部核心点之间的共享近邻的距离;S5:构造决策图,实现局部核心点的聚类;S6:分配非局部核心点,实现数据集中所有数据对象的聚类。2.如权利要求1所述的一种基于并行自然邻的局部核心点聚类算法,其特征在于,所述S1中所述快速排序法为,采用快速排序后的标称值的位置与需要查找的中值位置进行比较,从而判断中值点位于标称值的左边或右边,然后递归地去查询,直到标称值的位置为中值点所在的位置为止。3.如权利要求1所述的一种基于并行自然邻的局部核心点聚类算法,其特征在于,所述S2中,所述并行的自然邻搜索算法为采用收集节点和搜索节点两种类型的计算节点对KD-树进行并行计算,用于获取数据集的每个数据对象的邻域信息。4.如权利要求3所述的一种基于并行自然邻的局部核心点聚类算法,其特征在于,所述收集节点,用于判断自然邻搜索算法算法是否停止,逆近邻的样本点数目为0,则算法停止;所述搜索节点,用于在KD-树中搜索数据邻域信息和发送数据邻域信息。5.如权利要求1所述的一种基于并行自然邻的局部核心点聚类算法,其特征在于,所述S3中,包括以下步骤:S3-1:计算数据集中每个数据对象的密度Den,计算公式为:公式(1)中,Den(p)表示数据对象p的密度,nb(p)表示数据对象p的逆近邻数量,p,q∈D,NNλ(p)是p的λ最近邻居集合,q是p的λ最近邻居集合中的数据对象,dist(p,q)是p和q的欧式距离;S3-2:选取数据对象局部邻域中MaxDen值对应的数据对象为局部核心点。6.如权利要求1所述的一种基于并行自然邻的局部核心点聚类算法,其特征在于,所述S4中,包括以下步骤:S4-1:定义局部核心点的...
【专利技术属性】
技术研发人员:程东东,黄金龙,张素兰,李捷,桂俊,
申请(专利权)人:长江师范学院,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。