The invention provides a OPTICS clustering algorithm based on a large data platform of Spark, which relates to the acquisition and processing technology of computer information. The present invention based on parallel data structure, the optimal partition data set and generate the corresponding RDD, the number of samples and core parallel computing neighbor distance for each partition of the parallel execution of OPTICS algorithm for each partition of the clusters are sorted and stored, sorted by cluster for each partition given cluster, by merging partitions, each sample to get a global cluster number. Using the Spark distributed parallel technology, the optimal partitioning structure is found, and the cluster ordering of each partition is computed in parallel. By sorting OPTICS clusters, users can observe the intrinsic clustering structure of data sets from different hierarchical structures. This method can deal with large-scale data sets which can not be processed by serial algorithms, and can greatly improve the time of clustering results.
【技术实现步骤摘要】
基于Spark内存计算大数据平台的OPTICS点排序聚类方法
本专利技术涉及计算机数据挖掘、计算机信息处理
技术介绍
随着计算机信息领域的飞速发展,大量的数据从生活的各个方面被收集起来,互联网上各种各样信息的规模也在成几何倍数的增大,从海量的数据中迅速分析从而提取隐藏在数据中的信息变得越来越重要。聚类分析是数据分析的一个主要方法,聚类(clustering)是将数据对象进行分类的过程,使同一簇中的对象之间具有很高的相似度,而不同簇中的对象高度相异。与分类过程不同的是,聚类不依赖预先定义的类和类标号,同时聚类过程中的分类标准和类型数量均是未知的。近来聚类分析方法得到了相当多的关注。传统的聚类分析算法存在三个问题:第一,需要输入参数,但输入参数难以获取;第二,对输入参数特别敏感,参数设置的细微不同可能导致聚类的差别很大;第三,高维的数据集一般都具有非常倾斜的分布,全局密度参数不能刻画内置的聚类结构。基于密度的聚类方法OPTICS(OrderingPointToIdentifytheClusterStructure)是通过扩展传统的DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)算法,对数据集中数据对象通过计算基于密度的簇排序,从簇排序序列中提取有用的聚类信息的数据分析方法。OPTICS算法相对于传统的聚类算法,对输入参数不敏感。随着数据量的增大和数据维度的增加,采用传统的串行方法难以应对百万条以上的数据集,通常会出现时间过长,内存溢出和宕机等问题,不能满足现实中工程的需要。Sp ...
【技术保护点】
一种基于Spark大数据平台的数据集聚类方法,其特征在于,将数据集转化成Spark平台的分布式数据集RDD,对RDD数据集进行划分,得到最优的数据划分结构,分割得到最优分区;并行获取每个最优分区中所有样本点的邻居样本点编号,并赋予OPTICS算法的核心距离;对每个分区执行OPTICS算法,得到每个分区的簇排序并将其存储;根据每个分区的簇排序,赋予每个样本在分区内的簇号,计算全局簇号转换Map;根据全局簇号转换Map,合并分区并更换簇号,得到聚类结果。
【技术特征摘要】
1.一种基于Spark大数据平台的数据集聚类方法,其特征在于,将数据集转化成Spark平台的分布式数据集RDD,对RDD数据集进行划分,得到最优的数据划分结构,分割得到最优分区;并行获取每个最优分区中所有样本点的邻居样本点编号,并赋予OPTICS算法的核心距离;对每个分区执行OPTICS算法,得到每个分区的簇排序并将其存储;根据每个分区的簇排序,赋予每个样本在分区内的簇号,计算全局簇号转换Map;根据全局簇号转换Map,合并分区并更换簇号,得到聚类结果。2.根据权利要求1所述的方法,其特征在于,进一步包括:输入聚类初始半径ε和半径内最小的邻居数MinPts,将输入的数据集转化成Spark平台的分布式数据集RDD,创建一个SparkContext环境对象,然后用SparkContext环境对象的parallelize或textFile函数创建一个可以被并行操作的分布式数据集RDD。3.根据权利要求1所述的方法,其特征在于,寻找最优的数据划分结构进一步包括,调用RDD的行动函数计算数据集维度差异最大的N个维度,将RDD划分成N个分区,使每个分区能够获取前面的广播变量;每个分区分别根据各自的维度生成树形结构,树的每个节点是一个盒子box;根据维度进行数据集划分。4.根据权利要求1所述的方法,其特征在于,并行计算分区中每个样本的邻居数并赋予OPTICS算法的核心距离,具体包括:广播盒子数组,生成盒子中样本数组的RDD,每个分区分别获得序号相对应的盒子;每个分区分别根据广播的盒子数组中对应的盒子及其前后盒子计算样本点邻居;根据样本与邻居间的欧几里得距离,得到每个样本对应的核心距离。5.根据权利要求1所述的方法,其特征在于,计算全局簇号转换Map,具体包括;根据用户的预定距离值B,从每个分区的簇排序中按顺序提取样本,赋予样本一个初始类别,如果该样本的可达距离不大于B则属于当前类别,如果可达距离大于B且核心距离大于B,则为噪声,当可达距离大于B且核心...
【专利技术属性】
技术研发人员:胡峰,瞿原,邓维斌,于洪,张清华,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。