一种去中心化的分布式聚类及结果采集方法技术

技术编号:35483079 阅读:12 留言:0更新日期:2022-11-05 16:34
本发明专利技术公开了一种去中心化的分布式聚类及结果采集方法,主要涉及大数据挖掘领域。包括一种局部节点N

【技术实现步骤摘要】
一种去中心化的分布式聚类及结果采集方法


[0001]本专利技术涉及大数据挖掘领域,具体是一种去中心化的分布式聚类及结果采集方法。

技术介绍

[0002]随着信息技术的迅猛发展,人们能够从生活和生产事件中收集并存储大量的数据信息。数据库中存储的数据量越来越庞大,这使得针对超大规模数据集的聚类分析变得尤为重要,然而现有的聚类算法对于超大规模数据的聚类均存在着扩展性与效率等方面的问题。超大规模数据的聚类分析是数据挖掘领域的一项非常重要的研究课题,而分布式聚类的方法是提高聚类效率最为有效的办法。
[0003]分布式聚类是基于分布式计算环境从大规模的数据集中提取分类模式,其常见的基本思想是:首先在各局部节点进行局部聚类;其次局部节点将局部聚类结果或者参数发送到主站点,主站点对这些局部聚类结果进行全局聚类以得到全局聚类模型;最后主站点将全局聚类模型发送到各子站点,各子站点根据该模型进行聚类更新。
[0004]分布聚类过程需要全节点参与地敛播、广播两个过程,当分布式的节点数量过大时,主节点通信量将巨量增长,耗时反而会超过集中式聚类。
[0005]各节点高度自治的去中心化系统架构可有效缓解分布式聚类中主节点的负载。去中心化系统不再设置主节点,各节点平等协作地完成计算任务。引入去中心化的思想解决大规模数据的聚类问题,可均衡各节点的负载,提高计算效率。

技术实现思路

[0006]针对于目前的分布式聚类仍然存在主节点性能瓶颈或者全局广播导致的网络拥塞的问题,本专利技术公开了一种去中心化的分布式聚类及结果采集方法。本专利技术实现了分布式聚类负载均衡与较少的网络负载,具有较好的扩展性。
[0007]本专利技术为实现上述目的,通过以下技术方案实现:
[0008]一种局部节点的计算方法,包括以下步骤:
[0009]S1设一个节点为n10,在n10计算各数据点N
ε
(p)值之前,生成n10空间的以ε为宽度包围图形,设这个图形为G;
[0010]S2在G随机找一个坐标点,n10根据此点的位置找到对应的邻近节点,设这个邻近节点为n11;
[0011]S3n11将自身负责空间的图形与G重叠,重叠部分设为g,搜集落入g的数据点,并将这些数据点发送给n10;
[0012]S4n10收到这些数据点后,加入外围数据点集用于N
ε
(p)值计算;
[0013]S5G

G

g;
[0014]S6若结束;否则,重复执行S2到S5步骤;
[0015]S7n10基于外围数据点集计算局部数据点的N
ε
(p)值。
[0016]优选的,在所述步骤S2到步骤S5被执行时,n10中边缘点以ε半径圆的数据点都被n10所收集。
[0017]优选的,所述步骤S2到S5被重复执行时,对于执行步骤S2包括同时生成多个尽可能分散的随机坐标点,将这些坐标点同时分发到多个节点,多个节点并行地处理步骤S3。
[0018]引用权利要求1

3的一种局部节点的计算方法,通过此方法获得N
ε
(p)值并基于DBSCAN算法获得若干簇,在若干簇中提取跨节点簇,并通过以下方法对跨节点簇进行合并:
[0019]发现子进程:
[0020]输入:Z,Z为n10的外围点集。b
i
.C
j
|b
i
∈Z,b
i
为外围点,i为数据点标识,b
i
.C
j
为经过局部聚类后,b
i
属于的簇,j为簇的标识。b
i
.n
k
|b∈Z,b
i
.n
k
为b
i
的宿主节点,k为节点标识。
[0021]算法:
[0022][0023]合并子进程:
[0024]输入:D,D∈C1
[0025]算法:
[0026][0027]优选的,包括一种在去中心化的分布式聚类节点中采集最值的方法,具体方法如下:
[0028](1)所有节点按照CAN分裂的次序建立一棵竞争树,每个节点向竞争树输出最值;
[0029](2)竞争树的根节点为汇总结点,根节点的值即为最值。
[0030]对比现有技术,本专利技术的有益效果在于:
[0031](1)提出了一种去中心化的聚类算法。实现了分布式聚类负载均衡与较少的网络负载,具有较好的扩展性。
[0032](2)对分布式聚类的结果采集应用场景进行分析,并设计不同的优化方案。进一步提高分布式聚类的应用效率。
附图说明
[0033]附图1是二维CAN协议中聚类对象在节点的分布。
[0034]附图2是局部节点中的内部点与边缘点。
[0035]附图3是边缘点ε半径范围在邻近节点分布的一种可能出现的复杂情况。
[0036]附图4是以ε为宽度包围图形。
[0037]附图5局部聚类后跨节点簇合并示例。
[0038]附图6局部节点不同簇经过合并子进程变为相同簇的情况。
[0039]附图7利用竞争树采集最值。
具体实施方式
[0040]下面结合具体实施例,进一步阐述本专利技术。应理解,这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。此外应理解,在阅读了本专利技术讲授的内容之后,本领域技术人员可以对本专利技术作各种改动或修改,这些等价形式同样落于本申请所限定的范围。
[0041]实施例一:基于双通道图神经网络的知识追踪建模方法
[0042]具体实施步骤如下:
[0043]聚类计算之前需要基于CAN组织聚类对象在分布式计算节点上的分布。CAN的设计是基于虚拟的d维笛卡儿坐标空间。整个坐标空间分配给系统中的所有节点,每个节点负责维护独立的互不相交的一块区域。CAN中的节点自组织成一个代表这个虚拟坐标空间的覆盖网络(overlay network)。每个节点要了解并维护相邻区域中节点的网络地址,用这些邻居信息构成自身的坐标路由表。根据路由表可以完成坐标空间中任意两点间的寻路。
[0044]设置CAN的空间的维度与聚类对象的属性维度相同。每个聚类对象可以根据自身的多维属性值映射到CAN空间的唯一位置点,这些点被称为数据点。各节点有自己所负责的CAN空间区域。当数据点落入一个节点的区域时,该节点负责管理该数据点。各节点大致分配数据点数量应大致相等,从而达到节点间的负载均衡。如此才能发挥每个节点的计算能力,提高聚类计算的时间效率。
[0045]假设数据点的属性是二维。图1给出了二维CAN将数据点映射到节点中的例子。小圆点代表数据点,深色是正常点,浅色是异常点。每个方格代表一个计算节点。可以观察到,每个节点负责一部分数据点。局部节点有正常点,也可能有导常点。
[0046]DBSCAN(Density
‑‑
Base本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种局部节点的计算方法,其特征在于,包括以下步骤:S1设一个节点为n10,在n10计算各数据点N
ε
(p)值之前,生成n10空间的以ε为宽度包围图形,设这个图形为G;S2在G随机找一个坐标点,n10根据此点的位置找到对应的邻近节点,设这个邻近节点为n11;S3n11将自身负责空间的图形与G重叠,重叠部分设为g,搜集落入g的数据点,并将这些数据点发送给n10;S4n10收到这些数据点后,加入外围数据点集用于N
ε
(p)值计算;S5 G

G

g;S6若结束;否则,重复执行S2到S5步骤;S7n10基于外围数据点集计算局部数据点的N
ε
(p)值。2.根据权利要求1所述一种局部节点N
ε
(p)的计算方法,其特征在于,在所述步骤S2到步骤S5被执行时,n10中边缘点以ε半径圆的数据点都被n10所收集。3.根据权利要求1所述一种局部节点N
ε
(p)的计算方法,其特征在于,所述步骤S2到S5被重复执行时,对于执行步骤S2包括同时生成多个尽可能分散的随机坐标点,将这些坐标点同时分发到多个节点,多个节点并行地处理步骤S3。4.一种去中心化的分布式聚类及结果采集方法,其特征在于,引用权利要求1

3的一种局部节点的计算方法,通过此方法获得N
ε
(p)值并基于DBSCAN算法获得若干簇,在若干簇中提取跨节点簇,并通过以下方法对跨节点簇进行合并:发现子进程:输入:Z,Z为n10的外围点集。b
i
.C
j
|b
i
∈Z,b
i
为外围点,i为数据点标识,b
i
.C
j
为经过局部聚类后,b
i
属于的簇,j为簇的标识。b
i
.n
k
|b∈Z,b
i
.n
k
为b
i
的宿主节点,k为节点标识。算法:FOREACH b
i
...

【专利技术属性】
技术研发人员:邹立达
申请(专利权)人:山东财经大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1