一种基于并行自然邻的局部核心点聚类算法制造技术

技术编号:21300847 阅读:32 留言:0更新日期:2019-06-12 08:15
本发明专利技术公开一种基于并行自然邻的局部核心点聚类算法,包括以下几个步骤:S1:采用快速排序法对数据集进行KD‑树的构建;S2:采用并行的自然邻搜索算法,获取每个数据对象的邻域信息;S3:通过计算每个数据对象的密度从而获取局部核心点;S4:计算局部核心点之间的距离;S5:构造决策图,实现局部核心点的聚类;S6:分配非局部核心点,实现数据集的聚类。通过本发明专利技术定义了基于共享近邻的局部核心点之间的距离,提高了聚类算法的效率。

A Local Core Point Clustering Algorithm Based on Parallel Natural Neighbors

The invention discloses a local core point clustering algorithm based on parallel natural neighborhood, which includes the following steps: S1: constructing KD_tree for data sets by fast sorting method; S2: obtaining neighborhood information of each data object by parallel natural neighborhood search algorithm; S3: obtaining local core points by calculating the density of each data object; S4: computing local core points; Distance between points; S5: Constructing decision maps to achieve clustering of local core points; S6: Distributing non-local core points to achieve clustering of data sets. The distance between local core points based on shared neighborhood is defined by the present invention, which improves the efficiency of clustering algorithm.

【技术实现步骤摘要】
一种基于并行自然邻的局部核心点聚类算法
本专利技术涉及数据挖掘
,特别涉及一种基于并行自然邻的局部核心点聚类算法。
技术介绍
聚类分析是数据挖掘的一种重要方法,其目的是将数据对象划分成不同的类,使得在同一个类簇中的对象彼此相似,而在不同类簇中的对象彼此不同。聚类分析被广泛地应用于大数据、模式识别、图像处理和人工智能等领域。因此对聚类分析算法的研究具有重要的意义。现有的聚类算法大致可以分为基于划分的方法、基于密度的方法、基于层次的方法、基于网格的方法和基于模型的方法等。近年来,基于中心的聚类算法逐渐成为研究的热点。基于划分的方法,如K-means算法和K-medoids算法等,也称为基于中心的聚类算法。但是K-means算法和K-medoids算法的聚类结果很容易受初始簇中心的影响,不同的初始簇中心可能会得到差异较大的聚类结果。为了避免初始簇中心的选择,Frey和Dueck提出了AP算法,该算法将所有的数据对象都当作潜在的簇中心,然后通过数据对象之间的信息传递找到最优的聚类中心。但是AP算法的聚类结果容易受到preference参数的影响,为了解决该问题,K-AP算法被提出。它通过引入一个约束条件,利用K个簇的中间结果进行聚类。但是AP算法和K-AP算法都无法识别非球形的簇。一个基于密度适应和谱维度约减的AP聚类算法DAAP算法被提出来,用于解决该问题,但是由于需要计算所有对象之间的最短路径,因此其具有较高的时间复杂度。Rodriguez和Laio于2014年在《Science》上提出了一种快速查找密度峰DP的聚类算法。该算法认为聚类中心被具有较低密度的邻居包围,并且它们与具有更高密度的对象之间的距离相对较大。基于这种思想,DP算法通过构造决策图,将数据对象映射到关于密度和δ距离的二维空间(决策图)中,具有较大密度和δ距离的聚类中心被突出出来,从而很容易得到聚类中心。DP算法不需要像K-means算法和K-medoids算法一样不断地优化目标函数以得到最优的聚类中心,但是它无法识别复杂的流形簇。
技术实现思路
针对已有DP(DensityPeaks)算法无法适用于复杂流形数据集的不足,本专利技术提出一种基于并行自然邻的局部核心点聚类算法,利用局部领域信息重新定义局部核心点之间的距离,能够较好地用于3D点云数据骨架提取。为了实现上述目的,本专利技术提供以下技术方案:一种基于并行自然邻的局部核心点聚类算法,其特征在于,包括以下几个步骤:S1:采用快速排序法对数据集进行KD-树的构建;S2:采用并行的自然邻搜索算法,获取每个数据对象的邻域信息;S3:通过计算每个数据对象的密度从而获取局部核心点;S4:计算局部核心点之间的共享近邻的距离;S5:构造决策图,实现局部核心点的聚类;S6:分配非局部核心点,实现数据集的聚类。优选的,所述S1中所述快速排序法为,采用快速排序后的标称值的位置与需要查找的中值位置进行比较,从而判断中值点位于标称值的左边或右边,然后递归地去查询,直到标称值的位置为中值点所在的位置为止。优选的,所述S2中,所述并行的自然邻搜索算法为采用收集节点和搜索节点两种类型的计算节点对KD-树进行并行计算,用于获取数据集的每个数据对象的邻域信息。优选的,所述收集节点,用于判断自然邻搜索算法算法是否停止,逆近邻的样本点数目为0,则算法停止;所述搜索节点,用于在KD-树中搜索数据邻域信息和发送数据邻域信息。优选的,所述S3中,包括以下步骤:S3-1:计算数据集中每个数据对象的密度Den,计算公式为:公式(1)中,Den(p)表示数据对象p的密度,nb(p)表示数据对象p的逆近邻数量,p,q∈D,NNλ(p)是p的λ最近邻居集合,q是p的λ最近邻居集合中的数据对象,dist(p,q)是p和q的欧式距离;S3-2:选取数据对象局部邻域中MaxDen(p)值对应的数据对象为局部核心点。优选的,所述S4中,包括以下步骤:S4-1:定义局部核心点的邻域:公式(2)中,NLORE(p)为局部核心点p的邻域,MLORE(p)为局部核心点p的成员的集合,NNλ(q)是局部核心点q的λ最近邻居集合;S4-2:定义两个局部核心点的共享近邻:SLORE(p,q)=NLORE(p)∩NLORE(q)(3)公式(3)中,SLORE(p,q)表示局部核心点p和q的共享近邻,NLORE(p)为局部核心点p的邻域,NLORE(q)为局部核心点q的邻域;S4-3:计算两个局部核心点之间的共享近邻距离:公式(4)中,SD(p,q)为局部核心点p和q的共享近邻距离,d(p,q)是两个局部核心点p,q之间的欧式距离,Den(o)是数据对象o的密度,maxd是任意两个局部核心点之间的距离的最大值;|SLORE(p,q)|表示局部核心点p和q的共享近邻数。优选的,所述S5中,包括以下步骤:S5-1:获得局部核心点的密度ρ:局部核心点p的密度记为ρ(p)=Den(p);S5-2:获得局部核心点p的δ距离:公式(5)中,δ(p)表示局部核心点p的δ距离,LORE表示局部核心点集合,SD(p,q)表示局部核心点p和q的共享近邻的距离,SD(p,o)是局部核心点p和o的共享近邻的距离,maxρ表示局部核心点的密度最大值;S5-3:构建二维决策图,选择局部核心点作为聚类中心进行聚类;根据局部核心点集合中局部核心点的密度ρ和δ距离,以ρ为横坐标、δ距离为纵坐标在局部核心点上构造二维决策图,选择ρ>α且δ距离>β的局部核心点为聚类中心形成簇,α,β为预设阈值,然后将剩余的局部核心点划分到与其距离为minSD的局部核心点所属的簇中,以完成局部核心点的聚类。优选的,所述S6中,将所述非局部核心点划分到其相对应的局部核心点所属的簇中,以进行数据集中所有数据对象的聚类。综上所述,由于采用了上述技术方案,与现有技术相比,本专利技术至少具有以下有益效果:本专利技术利用并行自然邻获得数据集的分布结构特征,从而获得数据集的局部核心点,并重新定义了基于共享近邻的局部核心点之间的距离。且并行自然邻搜索算法,仅仅考虑局部核心点上的聚类,因此提高了算法的效率;重新定义的局部核心点之间的距离充分利用了数据对象的局部邻域信息,使得新的算法能够有效地处理复杂流形簇,从而能够应用于3D点云数据骨架提取中。附图说明:图1为根据本专利技术示例性实施例的一种基于并行自然邻的局部核心点聚类算法流程示意图。图2为根据本专利技术示例性实施例的快速排序算法流程示意图。图3为根据本专利技术示例性实施例的并行的自然邻搜索算法示意图。具体实施方式下面结合实施例及具体实施方式对本专利技术作进一步的详细描述。但不应将此理解为本专利技术上述主题的范围仅限于以下的实施例,凡基于本
技术实现思路
所实现的技术均属于本专利技术的范围。图1为根据本专利技术示例性实施例的一种基于并行自然邻的局部核心点聚类算法流程示意图。具体包括以下步骤:步骤S1:采用快速排序法对数据集进行KD-树的构建。本实施例中,待聚类的数据集为D,本专利技术采用快速排序法对数据集D中的数据进行排序从而查找数据集的中值,从而构建数据集的KD-树(k-Dimensional树)。参照图2,具体的是使用快速排序后的标称值mark的位置Location与需要查找的中值位置median进行,标称值左边的数值都小于本文档来自技高网
...

【技术保护点】
1.一种基于并行自然邻的局部核心点聚类算法,其特征在于,包括以下几个步骤:S1:采用快速排序法对数据集进行KD‑树的构建;S2:采用并行的自然邻搜索算法,获取每个数据对象的邻域信息;S3:通过计算每个数据对象的密度从而获取局部核心点;S4:计算局部核心点之间的共享近邻的距离;S5:构造决策图,实现局部核心点的聚类;S6:分配非局部核心点,实现数据集中所有数据对象的聚类。

【技术特征摘要】
1.一种基于并行自然邻的局部核心点聚类算法,其特征在于,包括以下几个步骤:S1:采用快速排序法对数据集进行KD-树的构建;S2:采用并行的自然邻搜索算法,获取每个数据对象的邻域信息;S3:通过计算每个数据对象的密度从而获取局部核心点;S4:计算局部核心点之间的共享近邻的距离;S5:构造决策图,实现局部核心点的聚类;S6:分配非局部核心点,实现数据集中所有数据对象的聚类。2.如权利要求1所述的一种基于并行自然邻的局部核心点聚类算法,其特征在于,所述S1中所述快速排序法为,采用快速排序后的标称值的位置与需要查找的中值位置进行比较,从而判断中值点位于标称值的左边或右边,然后递归地去查询,直到标称值的位置为中值点所在的位置为止。3.如权利要求1所述的一种基于并行自然邻的局部核心点聚类算法,其特征在于,所述S2中,所述并行的自然邻搜索算法为采用收集节点和搜索节点两种类型的计算节点对KD-树进行并行计算,用于获取数据集的每个数据对象的邻域信息。4.如权利要求3所述的一种基于并行自然邻的局部核心点聚类算法,其特征在于,所述收集节点,用于判断自然邻搜索算法算法是否停止,逆近邻的样本点数目为0,则算法停止;所述搜索节点,用于在KD-树中搜索数据邻域信息和发送数据邻域信息。5.如权利要求1所述的一种基于并行自然邻的局部核心点聚类算法,其特征在于,所述S3中,包括以下步骤:S3-1:计算数据集中每个数据对象的密度Den,计算公式为:公式(1)中,Den(p)表示数据对象p的密度,nb(p)表示数据对象p的逆近邻数量,p,q∈D,NNλ(p)是p的λ最近邻居集合,q是p的λ最近邻居集合中的数据对象,dist(p,q)是p和q的欧式距离;S3-2:选取数据对象局部邻域中MaxDen值对应的数据对象为局部核心点。6.如权利要求1所述的一种基于并行自然邻的局部核心点聚类算法,其特征在于,所述S4中,包括以下步骤:S4-1:定义局部核心点的...

【专利技术属性】
技术研发人员:程东东黄金龙张素兰李捷桂俊
申请(专利权)人:长江师范学院
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1