一种面向高维度大数据的子空间聚类方法及装置制造方法及图纸

技术编号:15747417 阅读:123 留言:0更新日期:2017-07-03 04:50
本发明专利技术实施例提供了一种面向高维度大数据的子空间聚类方法及装置,其中,方法包括:针对获取的高维大数据的每行建立第一Map任务,并按照维度对每个第一Map任务中的数据进行分割,得到每个第一Map任务中每个维度的特征值;在第一Reduce节点中,获取并根据每个维度所有特征值的数据区域、预设窗口数、预设窗口合并阈值及预设窗口密度阈值,得到每个维度的1维密集子空间;根据每两个k维密集子空间,确定k+1维候选子空间;针对每个k维密集子空间建立第二Map任务,并获得分布于每个k维密集子空间的所有样本点;在第二Reduce节点中,得到聚类后的k+1维密集子空间。通过本方案可以提升高维度大数据聚类的运行效率。

Subspace clustering method and device for high dimension and large data

Including the embodiment of the invention provides a method and device, subspace clustering method for high dimension data of the method: for each row in high dimension data acquisition is the establishment of the first Map task, and in accordance with the dimensions of each of the first Map task in data segmentation, feature of each dimension of each of the first Map task in value; in the first Reduce node, and according to the obtained data area, all the features of each dimension value of the default window number, default window with threshold and default window density threshold, each dimension of the 1 dimensional dense subspace; according to each of the two K's collection space, determine the k+1 dimensional subspace of the candidate; second Map tasks for each k's collection of space, and get all the sample points are located in each of the K's collection of space; in the second Reduce node, obtained after clustering k+1 dimensional dense Subspace. This scheme can improve the efficiency of clustering large dimension and large data.

【技术实现步骤摘要】
一种面向高维度大数据的子空间聚类方法及装置
本专利技术涉及数据处理
,特别是涉及一种面向高维度大数据的子空间聚类方法及装置。
技术介绍
聚类,是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。聚类分析又称群分析,是研究分类问题的一种统计分析方法。由于大数据时代的来临,数据集的规模越来越大,维度越来越高,因为不相关特征和维数灾难的存在,传统的聚类算法针对高维度数据不再适用。为了解决传统的聚类算法针对高维度数据不适用的问题,现有技术提出了子空间聚类的概念,子空间聚类算法旨在于在原始特征空间的子集中发现隐藏的簇类,从而避免维数灾难,解决高维度数据的聚类问题,子空间聚类算法主要基于所应用的搜索方法被分为自底向上和自顶向下两组。子空间聚类算法一般假定整个数据集运行于单机,当遇到高维度大数据时,在单机上进行聚类分析会遇到内存容量和内核处理速度的瓶颈问题。现有的子空间聚类算法中,最为普遍的是最大频繁集挖掘Mafia子空间聚类算法,Mafia子空间聚类算法首先将每个维度都进行均匀的区间划分,并且将均匀划分的网格中每一维上数据分布密度相似的相邻段进行合并,产生一个不均匀划分的网格,识别每个网格中的密集子空间,然后根据(k-1)维密集子空间生成k维密集子空间的候选聚类区域集,使用深度优先搜索在每个被选择的候选聚类区域集中寻找相邻的密集子空间并通过贪婪增长的方法合并这些密集子空间,即从一个任意的密集子空间开始,贪婪地在每个维度产生一个最大的区域直到所有区域的总和覆盖整个簇类。Mafia子空间聚类算法减少了每一维上分割的单元数量和候选聚类区域集的数据,同时消除了子空间检测的剪枝技术;并且,Mafia子空间聚类算法可以采用并行方法进行聚类处理,再对聚类处理后的数据进行串行执行。但是,针对聚类处理的过程,数量级在TB、PB级及以上的高维度大数据,数据量庞大,数据的行数可能达到上万行,Mafia子空间聚类算法在进行区间划分后得到的依旧是非常庞大的数据,从而导致Mafia子空间聚类算法在处理庞大的数据时,运行效率较低。
技术实现思路
本专利技术实施例的目的在于提供一种面向高维度大数据的子空间聚类方法及装置,以提升高维度大数据聚类的运行效率。具体技术方案如下:第一方面,本专利技术实施例提供了一种面向高维度大数据的子空间聚类方法,所述方法包括:获取输入的高维度大数据,在MapReduce架构下针对每一行数据建立第一Map任务,并在每个第一Map任务中按照维度对数据进行分割,得到每个第一Map任务中每个维度的特征值;将每个第一Map任务中每个维度的特征值发送至第一Reduce节点,以使在每个第一Reduce节点中,获取并根据每个维度所有特征值的数据区域、预设窗口数、预设窗口合并阈值及预设窗口密度阈值,得到每个维度的1维密集子空间;根据每两个k维密集子空间,确定k+1维候选子空间,其中,k大于或等于1,k+1小于或等于所述高维度大数据的总维度;针对每个k维密集子空间建立第二Map任务,并获得分布于每个k维密集子空间的所有样本点;在每个第二Map任务中,在k+1维候选子空间包含k维密集子空间中所有维度时,确定所述k+1维候选子空间覆盖所述k维密集子空间;将所述k+1维候选子空间覆盖的所有k维密集子空间中的样本点集合发送至第二Reduce节点,以使在每个第二Reduce节点中,获取所述k+1维候选子空间覆盖的所有k维密集子空间中样本点集合的交集及预设簇类密度阈值,并根据所述k+1维候选子空间、所述交集及所述预设簇类密度阈值,得到聚类后的k+1维密集子空间。可选的,所述获取并根据每个维度所有特征值的数据区域、预设窗口数、预设窗口合并阈值及预设窗口密度阈值,得到每个维度的1维密集子空间,包括:根据每个维度的所有特征值,确定每个维度中特征值的最大值及最小值,并确定每个维度所有特征值的数据区域为大于或等于所述最小值、且小于或等于所述最大值的数据区域;获取并根据预设窗口数,将所述数据区域均分为Np个初始窗口,并将所有特征值分配至各个初始窗口,其中,Np为所述预设窗口数;获取预设窗口合并阈值,并统计每个初始窗口中特征值的数量;在两个相邻初始窗口中特征值的数量的差值小于所述预设窗口合并阈值时,合并所述两个相邻初始窗口,得到合并后的窗口;获取预设窗口密度阈值,确定所述合并后的窗口中、特征值的数量大于所述预设窗口密度阈值的窗口为1维密集子空间。可选的,所述在两个相邻初始窗口中特征值的数量的差值小于所述预设窗口合并阈值时,合并所述两个相邻初始窗口,得到合并后的窗口之后,所述方法还包括:在所述合并后的窗口的总数量为1时,根据所述预设窗口数,将所述合并后的窗口均分为Np个窗口。可选的,所述获取预设窗口密度阈值,确定所述合并后的窗口中、特征值的数量大于所述预设窗口密度阈值的窗口为1维密集子空间之后,所述方法还包括:以键值对形式存储所述1维密集子空间及所述1维密集子空间中的所有样本点。可选的,所述根据每两个k维密集子空间,确定k+1维候选子空间,包括:在每个k维密集子空间均为1维密集子空间时,合并每两个1维密集子空间,得到2维候选子空间;在k维密集子空间为N维密集子空间时,若每两个k维密集子空间包含相同的k-1维密集子空间,通过对所述两个k维密集子空间进行融合、去重,得到k+1维候选子空间,其中,N大于1、且小于所述高维度大数据的总维度。可选的,所述在k+1维候选子空间包含k维密集子空间中所有维度时,确定所述k+1维候选子空间覆盖所述k维密集子空间之后,所述方法还包括:将所述k+1维候选子空间及所述k+1维候选子空间覆盖的k维密集子空间分发至各个子节点执行。可选的,所述获取所述k+1维候选子空间覆盖的所有k维密集子空间中样本点集合的交集及预设簇类密度阈值,并根据所述k+1维候选子空间、所述交集及所述预设簇类密度阈值,得到聚类后的k+1维密集子空间,包括:统计所述k+1维候选子空间覆盖的所有k维密集子空间中样本点集合的交集中样本点的数量;获取预设簇类密度阈值,在所述交集中样本点的数量大于所述预设簇类密度阈值时,确定所述k+1维候选子空间为聚类后的k+1维密集子空间。可选的,所述获取预设簇类密度阈值,在所述交集中样本点的数量大于所述预设簇类密度阈值时,确定所述k+1维候选子空间为聚类后的k+1维密集子空间之后,所述方法还包括:以键值对形式存储所述k+1维密集子空间及所述k+1维密集子空间中的所有样本点。第二方面,本专利技术实施例还提供了一种面向高维度大数据的子空间聚类装置,所述装置包括:第一分割模块,用于获取输入的高维度大数据,在MapReduce架构下针对每一行数据建立第一Map任务,并在每个第一Map任务中按照维度对数据进行分割,得到每个第一Map任务中每个维度的特征值;第一确定模块,用于将每个第一Map任务中每个维度的特征值发送至第一Reduce节点,以使在每个第一Reduce节点中,获取并根据每个维度所有特征值的数据区域、预设窗口数、预设窗口合并阈值及预设窗口密度阈值,得到每个维度的1维密集子空间;第二确定模块,用于根据每两个k维密集子空间,确定k+1维候选子空间本文档来自技高网
...
一种面向高维度大数据的子空间聚类方法及装置

【技术保护点】
一种面向高维度大数据的子空间聚类方法,其特征在于,所述方法包括:获取输入的高维度大数据,在MapReduce架构下针对每一行数据建立第一Map任务,并在每个第一Map任务中按照维度对数据进行分割,得到每个第一Map任务中每个维度的特征值;将每个第一Map任务中每个维度的特征值发送至第一Reduce节点,以使在每个第一Reduce节点中,获取并根据每个维度所有特征值的数据区域、预设窗口数、预设窗口合并阈值及预设窗口密度阈值,得到每个维度的1维密集子空间;根据每两个k维密集子空间,确定k+1维候选子空间,其中,k大于或等于1,k+1小于或等于所述高维度大数据的总维度;针对每个k维密集子空间建立第二Map任务,并获得分布于每个k维密集子空间的所有样本点;在每个第二Map任务中,在k+1维候选子空间包含k维密集子空间中所有维度时,确定所述k+1维候选子空间覆盖所述k维密集子空间;将所述k+1维候选子空间覆盖的所有k维密集子空间中的样本点集合发送至第二Reduce节点,以使在每个第二Reduce节点中,获取所述k+1维候选子空间覆盖的所有k维密集子空间中样本点集合的交集及预设簇类密度阈值,并根据所述k+1维候选子空间、所述交集及所述预设簇类密度阈值,得到聚类后的k+1维密集子空间。...

【技术特征摘要】
1.一种面向高维度大数据的子空间聚类方法,其特征在于,所述方法包括:获取输入的高维度大数据,在MapReduce架构下针对每一行数据建立第一Map任务,并在每个第一Map任务中按照维度对数据进行分割,得到每个第一Map任务中每个维度的特征值;将每个第一Map任务中每个维度的特征值发送至第一Reduce节点,以使在每个第一Reduce节点中,获取并根据每个维度所有特征值的数据区域、预设窗口数、预设窗口合并阈值及预设窗口密度阈值,得到每个维度的1维密集子空间;根据每两个k维密集子空间,确定k+1维候选子空间,其中,k大于或等于1,k+1小于或等于所述高维度大数据的总维度;针对每个k维密集子空间建立第二Map任务,并获得分布于每个k维密集子空间的所有样本点;在每个第二Map任务中,在k+1维候选子空间包含k维密集子空间中所有维度时,确定所述k+1维候选子空间覆盖所述k维密集子空间;将所述k+1维候选子空间覆盖的所有k维密集子空间中的样本点集合发送至第二Reduce节点,以使在每个第二Reduce节点中,获取所述k+1维候选子空间覆盖的所有k维密集子空间中样本点集合的交集及预设簇类密度阈值,并根据所述k+1维候选子空间、所述交集及所述预设簇类密度阈值,得到聚类后的k+1维密集子空间。2.根据权利要求1所述的面向高维度大数据的子空间聚类方法,其特征在于,所述获取并根据每个维度所有特征值的数据区域、预设窗口数、预设窗口合并阈值及预设窗口密度阈值,得到每个维度的1维密集子空间,包括:根据每个维度的所有特征值,确定每个维度中特征值的最大值及最小值,并确定每个维度所有特征值的数据区域为大于或等于所述最小值、且小于或等于所述最大值的数据区域;获取并根据预设窗口数,将所述数据区域均分为Np个初始窗口,并将所有特征值分配至各个初始窗口,其中,Np为所述预设窗口数;获取预设窗口合并阈值,并统计每个初始窗口中特征值的数量;在两个相邻初始窗口中特征值的数量的差值小于所述预设窗口合并阈值时,合并所述两个相邻初始窗口,得到合并后的窗口;获取预设窗口密度阈值,确定所述合并后的窗口中、特征值的数量大于所述预设窗口密度阈值的窗口为1维密集子空间。3.根据权利要求2所述的面向高维度大数据的子空间聚类方法,其特征在于,所述在两个相邻初始窗口中特征值的数量的差值小于所述预设窗口合并阈值时,合并所述两个相邻初始窗口,得到合并后的窗口之后,所述方法还包括:在所述合并后的窗口的总数量为1时,根据所述预设窗口数,将所述合并后的窗口均分为Np个窗口。4.根据权利要求2所述的面向高维度大数据的子空间聚类方法,其特征在于,所述获取预设窗口密度阈值,确定所述合并后的窗口中、特征值的数量大于所述预设窗口密度阈值的窗口为1维密集子空间之后,所述方法还包括:以键值对形式存储所述1维密集子空间及所述1维密集子空间中的所有样本点。5.根据权利要求1所述的面向高维度大数据的子空间聚类方法,其特征在于,所述根据每两个k维密集子空间,确定k+1维候选子空间,包括:在每个k维密集子空间均为1维密集子空间时,合并每两个1维密集子空间,得到2维候选子空间;在k维密集子空间为N...

【专利技术属性】
技术研发人员:高志鹏范译丹牛琨赵旸邓楠洁杨杨邱雪松李文璟
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1