The invention provides an on-line clustering method for spatial data streams based on distributed incremental DBSCAN algorithm, which relates to the fields of data mining and large data analysis. According to the spatial data in specific production scenarios, this method builds a distributed cluster, carries out distributed on-line clustering processing, partitions the source data and distributes it to each node of the cluster, uses DBSCAN clustering processing, updates the original clustering results through the newly arrived spatial data, accesses the clustering results of each node of the cluster sequentially, marks the global and unique clustering for each data point. Number. The method of the invention can automatically divide and distribute source data, synthesize local clustering results and return global clustering results, thus meeting the requirements of shortening processing time and adapting to data flow, and laying a foundation for clustering analysis of spatial data flow in large-scale practical application scenarios.
【技术实现步骤摘要】
一种基于分布式增量型DBSCAN算法的空间数据流在线聚类方法
本专利技术涉及数据挖掘和大数据分析领域,具体涉及一种基于分布式增量型DBSCAN算法的空间数据流在线聚类方法。
技术介绍
空间聚类分析是空间数据挖掘与知识发现的重要方法之一,已广泛应用于地理学、地质学、气象学、地图学、天文学及公共卫生等诸多领域,空间聚类是指将数据集中对象按照相似度标准分簇,同一簇中的对象相似度较高,而不同簇中的对象差异较大。DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)是一种经典的基于密度的空间聚类算法,该算法的优势在于聚类速度快且能够有效处理噪声点和发现任意形状的空间聚类,并且不需要预先设定待划分的聚类个数,因此被广泛应用于空间数据的聚类问题。DBSCAN算法待输入的距离阈值、邻域样本数阈值两个参数,已有许多研究结果表明可以根据数据集的分布特征自动选取,不需要人为设置,极大地增强了使用DBSCAN方法的便利性。然而,近年来,随着实时监控系统、互联网环境等动态应用环境的发展,数据已不仅表现为文件、数据库等传统的 ...
【技术保护点】
1.一种基于分布式增量型DBSCAN算法的空间数据流在线聚类方法,其特征在于:该方法包括以下步骤:历史数据:动态应用环境中处于数据序列前部的部分空间数据;距离阈值∈:设定的邻域半径为∈,距离的度量方式为欧几里得距离;邻域样本数阈值MinPts:给定点在∈邻域内成为核心点的最小邻域点数;工作节点样本数阈值MaxPoints:集群内工作节点支持处理的最大点数;边界矩形BoundingRectangle:能够包含数据集全部数据点的最小矩形边界框;分区partitions:对边界矩形或初始分区划分得到的区域;∈‑邻域:对于xj∈D,其∈‑邻域包含样本集D中与xj距离不大于∈的子样本 ...
【技术特征摘要】
1.一种基于分布式增量型DBSCAN算法的空间数据流在线聚类方法,其特征在于:该方法包括以下步骤:历史数据:动态应用环境中处于数据序列前部的部分空间数据;距离阈值∈:设定的邻域半径为∈,距离的度量方式为欧几里得距离;邻域样本数阈值MinPts:给定点在∈邻域内成为核心点的最小邻域点数;工作节点样本数阈值MaxPoints:集群内工作节点支持处理的最大点数;边界矩形BoundingRectangle:能够包含数据集全部数据点的最小矩形边界框;分区partitions:对边界矩形或初始分区划分得到的区域;∈-邻域:对于xj∈D,其∈-邻域包含样本集D中与xj距离不大于∈的子样本集,即N∈(xj)={xi∈D|distance(xi,xj)≤∈},子样本集的个数记为|N∈(xj)|;核心点CPRE:对于任一样本xj∈D,如果其∈邻域对应的N∈(xj)至少包含MinPts个样本,即如果|N∈(xj)|≥MinPts,则xj是核心点;密度直达:如果xi位于xj的∈-邻域中,且xj是核心点,则称xi由xj密度直达;密度可达:对于xi和xj,如果存在样本序列p1,p2,…,pn,满足p1=xi,pn=xj,且pn由pn-1密度直达,则称xi由xj密度可达;密度相连:对于xi和xj,如果存在核心点xk,使xi和xj均由xk密度可达,则称xi和xj是密度相连;聚类cluster:对于样本集D中的子集C,若任意两个样本都密度相连,则称C为一个聚类;边缘点BORDER:若样本xi∈C,并且xi不是核心点,则称xi是边缘点;噪声NOISE:若样本xi是边缘点,并且不属于任一聚类,则称xi是噪声;局部聚类编号clusterId:分区中聚类的编号;全局聚类编号globalClusterId:全部数据集中聚类的编号;步骤2、根据集群中每个工作节点的硬件属性设置工作节点样本数阈值MaxPoints;步骤3、遍历历史数据,根据数据分布特征确定DBSCAN方法的两个参数,距离阈值∈与邻域样本数阈值MinPts;步骤3.1、基于k-均值算法对数据集S聚类,得到聚类集合{C1,C2,…,Ck};步骤3.2、对于聚类Ci,计算集合内任意两个样本的距离,得到距离集合Di={d1,d2,…,dh,…},其中1≤h≤ni·(ni-1)/2;步骤3.3、统计距离集合Di中最大值max(Di)与最小值min(Di),将其差值平均划分为w个区间,每个小区间的长度为Δdi=(max(Di)-min(Di))/w;步骤3.4、统计每个小区间中包含样本数最多的区间编号j;步骤3.5、设置区间编号为j的样本距离中心值∈i=min(Di)+j·Δdi-Δdi/2,作为聚类Ci的距离阈值参数∈i;步骤3.6、统计聚类Ci中全部样本点在∈-邻域内的样本个数,将其最小值设置为聚类Ci的邻域样本数阈值MinPts;步骤3.7、遍历聚类集合{C1,C2,…,Ck},对每个聚类执行步骤3.2至步骤3.6,选择各聚类返回MinPts的最大值作为整个数据集的邻域样本数阈值MinPts,保存各聚类返回的距离阈值∈i;步骤4、遍历历史数据,根据全部数据点在各维度的坐标取值范围,提取历史数据集的边界矩形BoundingRectangle;步骤5、根据二元空间分割树BSP(BinarySpacePartition)的分区规则,递归划分步骤4得到的边界矩形BoundingRectangle,直到满足递归结束条件时终止,返回分区结果partitions={r1,r2,…,rn};步骤5.1、初始设置待分割区域集合needingSplit={BoundingRectangle},分区集合步骤5.2、如果待分割区域r∈needingSplit,满足集合内样本个数POINTSIN(r)超过工作节点样本数阈值MaxPoints,并且待分割区域的长度大于2倍的距离阈值∈,即POINTSIN(r)≥MaxPointsandLEN...
【专利技术属性】
技术研发人员:毛克明,刘舒琦,马卿云,
申请(专利权)人:东北大学,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。