一种去中心化的分布式聚类及结果采集方法技术

技术编号：35483079 阅读：12 留言：0更新日期：2022-11-05 16:34

本发明专利技术公开了一种去中心化的分布式聚类及结果采集方法，主要涉及大数据挖掘领域。包括一种局部节点N

全部详细技术资料下载

【技术实现步骤摘要】
一种去中心化的分布式聚类及结果采集方法

[0001]本专利技术涉及大数据挖掘领域，具体是一种去中心化的分布式聚类及结果采集方法。

技术介绍

[0002]随着信息技术的迅猛发展，人们能够从生活和生产事件中收集并存储大量的数据信息。数据库中存储的数据量越来越庞大，这使得针对超大规模数据集的聚类分析变得尤为重要，然而现有的聚类算法对于超大规模数据的聚类均存在着扩展性与效率等方面的问题。超大规模数据的聚类分析是数据挖掘领域的一项非常重要的研究课题，而分布式聚类的方法是提高聚类效率最为有效的办法。
[0003]分布式聚类是基于分布式计算环境从大规模的数据集中提取分类模式，其常见的基本思想是：首先在各局部节点进行局部聚类；其次局部节点将局部聚类结果或者参数发送到主站点，主站点对这些局部聚类结果进行全局聚类以得到全局聚类模型；最后主站点将全局聚类模型发送到各子站点，各子站点根据该模型进行聚类更新。
[0004]分布聚类过程需要全节点参与地敛播、广播两个过程，当分布式的节点数量过大时，主节点通信量将巨量增长，耗时反而会超过集中式聚类。
[0005]各节点高度自治的去中心化系统架构可有效缓解分布式聚类中主节点的负载。去中心化系统不再设置主节点，各节点平等协作地完成计算任务。引入去中心化的思想解决大规模数据的聚类问题，可均衡各节点的负载，提高计算效率。

技术实现思路

[0006]针对于目前的分布式聚类仍然存在主节点性能瓶颈或者全局广播导致的网络拥塞的问题，本专利技术公开了一种去中心化的分布式聚类及...

【技术保护点】

【技术特征摘要】
1.一种局部节点的计算方法，其特征在于，包括以下步骤：S1设一个节点为n10，在n10计算各数据点N
ε
(p)值之前，生成n10空间的以ε为宽度包围图形，设这个图形为G；S2在G随机找一个坐标点，n10根据此点的位置找到对应的邻近节点，设这个邻近节点为n11；S3n11将自身负责空间的图形与G重叠，重叠部分设为g，搜集落入g的数据点，并将这些数据点发送给n10；S4n10收到这些数据点后，加入外围数据点集用于N
ε
(p)值计算；S5 G
←
G
‑
g；S6若结束；否则，重复执行S2到S5步骤；S7n10基于外围数据点集计算局部数据点的N
ε
(p)值。2.根据权利要求1所述一种局部节点N
ε
(p)的计算方法，其特征在于，在所述步骤S2到步骤S5被执行时，n10中边缘点以ε半径圆的数据点都被n10所收集。3.根据权利要求1所述一种局部节点N
ε
(p)的计算方法，其特征在于，所述步骤S2到S5被重复执行时，对于执行步骤S2包括同时生成多个尽可能分散的随机坐标点，将这些坐标点同时分发到多个节点，多个节点并行地处理步骤S3。4.一种去中心化的分布式聚类及结果采集方法，其特征在于，引用权利要求1
‑
3的一种局部节点的计算方法，通过此方法获得N
ε
(p)值并基于DBSCAN算法获得若干簇，在若干簇中提取跨节点簇，并通过以下方法对跨节点簇进行合并：发现子进程：输入：Z，Z为n10的外围点集。b
i
.C
j
|b
i
∈Z，b
i
为外围点，i为数据点标识，b
i
.C
j
为经过局部聚类后，b
i
属于的簇，j为簇的标识。b
i
.n
k
|b∈Z，b
i
.n
k
为b
i
的宿主节点，k为节点标识。算法：FOREACH b
i
...

【专利技术属性】
技术研发人员：邹立达，
申请(专利权)人：山东财经大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人