一种基于密度峰值的大数据挖掘方法及装置制造方法及图纸

技术编号:15329905 阅读:54 留言:0更新日期:2017-05-16 13:28
本发明专利技术实施例公开了一种基于密度峰值的大数据挖掘方法及装置,本发明专利技术实施例包括:第一阶段:使用密度峰值聚类算法选定初始聚类中心;第二阶段,确定初始聚类数目以及对传统模糊C‑均值算法的加速收敛。在第一阶段算法中,通过使用密度峰值聚类中提供决策图,选定初始聚类中心,选择完成后,初始聚类中心数目即为聚类中心数,无需人工指定聚类数目。在第二阶段算法中,对传统模糊C‑均值算法的迭代过程进行优化,考虑局部密度对算法的影响,加入密度加权因子,使算法能够加速获取全局最优解,且加入振荡因子,使得算法能够加快收敛。

Large data mining method and device based on density peak value

The embodiment of the invention discloses a method and a device for mining large data density based on the embodiment of the invention includes: the first stage: using density clustering algorithm select the initial cluster center; the second stage, to determine the initial cluster number and the traditional fuzzy C mean algorithm to accelerate the convergence of. In the first stage of the algorithm, and provide decision by using density clustering map, select initial cluster center selection is completed, the number of initial cluster centers is the number of cluster centers, without the specified number of artificial clustering. In the second stage of the algorithm, the iterative process of traditional fuzzy c-means algorithm to optimize the C, considering the influence of local density algorithm, adding density weighting factor, the algorithm can accelerate to obtain the global optimal solution, and adding oscillating factor, the algorithm can speed up the convergence.

【技术实现步骤摘要】
一种基于密度峰值的大数据挖掘方法及装置
本专利技术涉及数据挖掘领域,尤其涉及一种基于密度峰值的大数据挖掘方法及装置。
技术介绍
聚类是将样本空间的所有对象划分成若干组,使得同一个组内的对象具有很高的相似性,而不同组间的对象具有很大的差异性。其中,模糊C-均值聚类作为模糊聚类的典型代表,具有广泛的应用。然而,模糊C-均值聚类算法存在一些缺点,主要表现在对初始聚类中心敏感,容易收敛于局部最优,收敛速度慢等。密度峰值算法(Clusteringbyfastsearchandfindofdensitypeaks,CFSFDP)是一种基于密度聚类的启发式算法。密度峰值聚类基于这样的一种假设:对于一个数据集,聚类中心被一些低局部密度的数据点包围,而且这些低局部密度的点距离其他有高局部密度的点的距离都比较大。在这样的模型中,密度峰值算法主要有两个需要计算的量:第一,局部密度;第二,与高密度点之间的距离。密度峰值算法具有能够快速并准确地确定聚类中心,收敛速度快、容易收敛于全局最优、鲁棒性强等优点。因此,提出一种基于密度峰值算法改进的模糊C-均值聚类算法是本领域技术人员需要解决的技术问题。
技术实现思路
本专利技术实施例提供了一种基于密度峰值的大数据挖掘方法及装置,无需指定聚类数目且加快了收敛速度。本专利技术实施例提供了一种基于密度峰值的大数据挖掘方法,包括:S1:获取到数据集,并计算所述数据集的每两个数据之间的欧氏距离,得到距离矩阵;S2:获取到预置截断距离,并通过第一预置公式对所述距离矩阵和所述截断距离进行计算,得到所述数据集的各个数据的局部密度,并根据所述各个数据的局部密度确定各个数据的高密度距离;S3:构造以局部密度为横轴、高密度距离为纵轴的决策图,根据所述各个数据的局部密度和所述各个数据的高密度距离在所述决策图上选取聚类中心;S4:通过第二预置公式对所述聚类中心、预置密度加权系数、预置振荡因子进行计算得到隶属度矩阵,根据所述隶属度矩阵和所述距离矩阵构造目标函数,并将预置迭代次数的值增加一;S5:若所述目标函数小于预置容许误差或所述预置迭代次数不小于预置最大迭代次数,则结束,若所述目标函数不小于预置容许误差或所述预置迭代次数小于预置最大迭代次数,则执行S3。优选地,所述根据所述各个数据的局部密度确定各个数据的高密度距离具体为:通过第三预置公式并根据所述各个数据的局部密度对所述距离矩阵进行选取得到各个数据的高密度距离,并通过预置第四公式对局部密度最大的数据进行计算得到所述局部密度最大的数据的高密度距离。优选地,所述第一预置公式为:其中,当dij-dc<0时,χ(dij-dc)=1,否则χ(dij-dc)=0;dc是一个截断距离;dij为第i个数据到第j个数据的欧式距离。优选地,所述预置第二公式为:其中,τ为预置密度加权系数;λ为预置振荡因子;mò(1,∞)为模糊系数;ck为第k个聚类中心;||xi-cj||表示xi到cj的欧式距离;xi表示第i个数据。优选地,所述预置密度加权系数的值通过以下预置公式确认:其中,ρi为第i个数据的局部密度;cj为第j个聚类中心;||xi-cj||表示xi到cj的欧式距离;xi表示第i个数据;d为数据集的每两个数据之间的欧氏距离。优选地,所述第三预置公式为:其中,δi为第i个数据是任意比第i个数据密度大的数据的距离的最小值;dij为第i个数据到第j个数据的欧式距离。优选地,所述第四预置公式为:δi=maxj∈dataset(dij)。优选地,所述目标函数为:其中,mò(1,∞)为模糊系数;uij为第i个数据对第j个数据簇的隶属度;cj为第j个聚类中心;||xi-cj||表示xi到cj的欧式距离;xi表示第i个数据。优选地,本专利技术实施例还提供了一种基于密度峰值的大数据挖掘装置,包括:第一计算单元,用于获取到数据集,并计算所述数据集的每两个数据之间的欧氏距离,得到距离矩阵;第二计算单元,获取到预置截断距离,并通过第一预置公式对所述距离矩阵和所述截断距离进行计算,得到所述数据集的各个数据的局部密度,并根据所述各个数据的局部密度确定各个数据的高密度距离;选取单元,用于构造以局部密度为横轴、高密度距离为纵轴的决策图,根据所述各个数据的局部密度和所述各个数据的高密度距离在所述决策图上选取聚类中心;第三计算单元,用于通过第二预置公式对所述聚类中心、预置密度加权系数、预置振荡因子进行计算得到隶属度矩阵,根据所述隶属度矩阵和所述距离矩阵构造目标函数,并将预置迭代次数的值增加一;判断单元,用于若所述目标函数小于预置容许误差或所述预置迭代次数不小于预置最大迭代次数,则结束,若所述目标函数不小于预置容许误差或所述预置迭代次数小于预置最大迭代次数,则触发选取单元。优选地,所述第二计算单元包括:第一计算子单元,用于通过第三预置公式并根据所述各个数据的局部密度对所述距离矩阵进行选取得到各个数据的高密度距离;第二计算子单元,用于通过预置第四公式对局部密度最大的数据进行计算得到所述局部密度最大的数据的高密度距离。从以上技术方案可以看出,本专利技术实施例具有以下优点:本专利技术实施例提供了一种基于密度峰值的大数据挖掘方法及装置,其中,该基于密度峰值的大数据挖掘方法包括:S1:获取到数据集,并计算所述数据集的每两个数据之间的欧氏距离,得到距离矩阵;S2:获取到预置截断距离,并通过第一预置公式对所述距离矩阵和所述截断距离进行计算,得到所述数据集的各个数据的局部密度,并根据所述各个数据的局部密度确定各个数据的高密度距离;S3:构造以局部密度为横轴、高密度距离为纵轴的决策图,根据所述各个数据的局部密度和所述各个数据的高密度距离在所述决策图上选取聚类中心;S4:通过第二预置公式对所述聚类中心、预置密度加权系数、预置振荡因子进行计算得到隶属度矩阵,根据所述隶属度矩阵和所述距离矩阵构造目标函数,并将预置迭代次数的值增加一;S5:若所述目标函数小于预置容许误差或所述预置迭代次数不小于预置最大迭代次数,则结束,若所述目标函数不小于预置容许误差或所述预置迭代次数小于预置最大迭代次数,则执行S3。本专利技术实施例包括:第一阶段:使用密度峰值聚类算法选定初始聚类中心;第二阶段,确定初始聚类数目以及对传统模糊C-均值算法的加速收敛。在第一阶段算法中,通过使用密度峰值聚类中提供决策图,选定初始聚类中心,选择完成后,初始聚类中心数目即为聚类中心数,无需人工指定聚类数目。在第二阶段算法中,对传统模糊C-均值算法的迭代过程进行优化,考虑局部密度对算法的影响,加入密度加权因子,使算法能够加速获取全局最优解,且加入振荡因子,使得算法能够加快收敛。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。图1为本专利技术实施例提供的一种基于密度峰值的大数据挖掘方法的流程示意图;图2为本专利技术实施例提供的一种基于密度峰值的大数据挖掘方法的另一流程示意图;图3为本专利技术实施例提供的一种基于密度峰值的大数据挖掘装置的结构示意图;图4为决策图示意图;图5为本专利技术实施例提供的一种基于密度本文档来自技高网...
一种基于密度峰值的大数据挖掘方法及装置

【技术保护点】
一种基于密度峰值的大数据挖掘方法,其特征在于,包括:S1:获取到数据集,并计算所述数据集的每两个数据之间的欧氏距离,得到距离矩阵;S2:获取到预置截断距离,并通过第一预置公式对所述距离矩阵和所述截断距离进行计算,得到所述数据集的各个数据的局部密度,并根据所述各个数据的局部密度确定各个数据的高密度距离;S3:构造以局部密度为横轴、高密度距离为纵轴的决策图,根据所述各个数据的局部密度和所述各个数据的高密度距离在所述决策图上选取聚类中心;S4:通过第二预置公式对所述聚类中心、预置密度加权系数、预置振荡因子进行计算得到隶属度矩阵,根据所述隶属度矩阵和所述距离矩阵构造目标函数,并将预置迭代次数的值增加一;S5:若所述目标函数小于预置容许误差或所述预置迭代次数不小于预置最大迭代次数,则结束,若所述目标函数不小于预置容许误差或所述预置迭代次数小于预置最大迭代次数,则执行S3。

【技术特征摘要】
1.一种基于密度峰值的大数据挖掘方法,其特征在于,包括:S1:获取到数据集,并计算所述数据集的每两个数据之间的欧氏距离,得到距离矩阵;S2:获取到预置截断距离,并通过第一预置公式对所述距离矩阵和所述截断距离进行计算,得到所述数据集的各个数据的局部密度,并根据所述各个数据的局部密度确定各个数据的高密度距离;S3:构造以局部密度为横轴、高密度距离为纵轴的决策图,根据所述各个数据的局部密度和所述各个数据的高密度距离在所述决策图上选取聚类中心;S4:通过第二预置公式对所述聚类中心、预置密度加权系数、预置振荡因子进行计算得到隶属度矩阵,根据所述隶属度矩阵和所述距离矩阵构造目标函数,并将预置迭代次数的值增加一;S5:若所述目标函数小于预置容许误差或所述预置迭代次数不小于预置最大迭代次数,则结束,若所述目标函数不小于预置容许误差或所述预置迭代次数小于预置最大迭代次数,则执行S3。2.根据权利要求1所述的基于密度峰值的大数据挖掘方法,其特征在于,所述根据所述各个数据的局部密度确定各个数据的高密度距离具体为:通过第三预置公式并根据所述各个数据的局部密度对所述距离矩阵进行选取得到各个数据的高密度距离,并通过预置第四公式对局部密度最大的数据进行计算得到所述局部密度最大的数据的高密度距离。3.根据权利要求1所述的基于密度峰值的大数据挖掘方法,其特征在于,所述第一预置公式为:其中,当dij-dc<0时,χ(dij-dc)=1,否则χ(dij-dc)=0;dc是一个截断距离;dij为第i个数据到第j个数据的欧式距离。4.根据权利要求1所述的基于密度峰值的大数据挖掘方法,其特征在于,所述预置第二公式为:其中,τ为预置密度加权系数;λ为预置振荡因子;mò(1,∞)为模糊系数;ck为第k个聚类中心;||xi-cj||表示xi到cj的欧式距离;xi表示第i个数据。5.根据权利要求4所述的基于密度峰值的大数据挖掘方法,其特征在于,所述预置密度加权系数的值通过以下预置公式确认:当||xi-cj||<(dmax-dmin)/4其中,ρi为第i个数据的局部密...

【专利技术属性】
技术研发人员:许青林刘沧生熊梦琪姜文超
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1