【技术实现步骤摘要】
基于峰密度和扩散现象的聚类算法
本专利技术涉及大数据
,特别涉及一种基于峰密度和扩散现象的聚类算法。
技术介绍
无参数密度估计的聚类算法主要包括均值漂移(Mean-Shift)算法和山峰聚类,山峰聚类自1994年由Yager和Filev提出来之后,经过了多次发展和完善后,已经成为了一种很健壮的无参数密度聚类算法。山峰聚类主要是要求出局部密度和最小距离。当前最新的具体做法是选取最近的K个点,求距离的累加和,然后用选取的K值除以累加和作为该点的局部密度。再由这个局部密度定义最小距离,使用局部密度和最小距离的乘积作为聚类中心点的选取标准,这种方法比单独考虑这两个指标更有效,也减少了超参数的个数。并且还提出了对选取的聚类中心点进行假设检验,只有符合假设检验的点才作为最后的聚类中心点,该方法在一定程度上使得聚类中心点的选取更加的准确和可靠。
技术实现思路
本专利技术提供了一种基于峰密度和扩散现象的聚类算法,其目的是为了解决传统的聚类算法在计算局部密度时需要对数据进行排序,剩余数据点的聚类过程需要迭代,聚类复杂
【技术保护点】
1.一种基于峰密度和扩散现象的聚类算法,其特征在于,包括:/n步骤1,在数据点的分布区域内计算出每个数据点的局部密度;/n步骤2,为每个数据点寻找一个距离最近的数据点,且寻找的数据点的局部密度大于当前数据点的局部密度,将每个数据点与每个寻找的数据点之间的距离作为最小距离;/n步骤3,通过每个数据点的局部密度和每个数据点的最小距离的乘积获取聚类中心点的选取标准;/n步骤4,对局部密度小的数据点进行识别,判断数据点是否为离散点;/n步骤5,根据扩散现象对剩余数据点进行聚类。/n
【技术特征摘要】
1.一种基于峰密度和扩散现象的聚类算法,其特征在于,包括:
步骤1,在数据点的分布区域内计算出每个数据点的局部密度;
步骤2,为每个数据点寻找一个距离最近的数据点,且寻找的数据点的局部密度大于当前数据点的局部密度,将每个数据点与每个寻找的数据点之间的距离作为最小距离;
步骤3,通过每个数据点的局部密度和每个数据点的最小距离的乘积获取聚类中心点的选取标准;
步骤4,对局部密度小的数据点进行识别,判断数据点是否为离散点;
步骤5,根据扩散现象对剩余数据点进行聚类。
2.根据权利要求1所述的基于峰密度和扩散现象的聚类算法,其特征在于,所述步骤1具体包括:
对数据点进行属性提取,得到距离矩阵distmatrix,根据距离矩阵计算每个数据点的局部密度,如下所示:
其中,表示数据点i的局部密度,di,j表示数据点i和数据点j之间的距离。
3.根据权利要求2所述的基于峰密度和扩散现象的聚类算法,其特征在于,所述步骤2具体包括:
根据距离矩阵和每个数据点的局部密度计算每个数据点的最小距离,如下所示:
其中,表示数据点i的最小距离,表示数据点i的局部密度,表示数据点...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。