The invention discloses a grid-based spatial multi-scale fast clustering method, which comprises: S1, selecting data scale, determining grid size, gridding sample data, and counting the density values of each grid; S2, specifying initial density threshold to retain all grids satisfying threshold conditions, and obtaining initial density matrix; 3. Specify filter template according to observation scale and convolute the global grid space; S4. Generate connected area by neighborhood search as the preliminary clustering result; Map the grid space to the original point set by grid integration operation to get the clustering result of the original point set; S5. Adjust the observation scale and use the new filter of transformation. Repeat the result matrix S3 and S4 to get the clustering results of the next observation scale; S6, change the data scale, repeat S1 to S5, get the clustering results of different data scales. The algorithm has low complexity, high clustering efficiency and precision, and can meet the requirements of real-time multi-scale clustering and visual analysis of mass point sets.
【技术实现步骤摘要】
一种基于网格的空间多尺度快速聚类方法
本专利技术涉及大数据分析挖掘与可视化领域,尤其涉及一种基于网格的空间多尺度快速聚类方法。
技术介绍
聚类是探索性数据分析的一个重要手段,具有广泛的应用。但传统的聚类方法未明确提出数据尺度和观察尺度的概念并说明其在聚类分析中发挥的作用,也很少显式的将这两个尺度因素作为聚类的依据,这限制了我们观察、分析事物的维度,使得聚类结果不够客观全面。尤其是海量时空数据场景下,数据中蕴含的信息通常更加复杂、结构更加丰富,单一尺度的聚类算法很难充分挖掘其中的模式规律。针对现有聚类算法尺度单一导致的认知片面问题,有学者提出了如Ripley,sK函数、层次聚类等多尺度聚类方法,但这些方法通常具有较高的计算复杂度,难以适应海量数据聚类的需求;而小波聚类、STING聚类等基于网格的多尺度聚类算法,虽然聚类效率很高,但尺度定义不够清晰、聚类结果也不够精细,而且难以解决聚类簇内部密度分布变化较大、多个聚类簇之间密度不均的问题。
技术实现思路
本专利技术要解决的技术问题在于针对现有技术中大规模数据集中,聚类尺度单一、聚类效率较低以及网格聚类无法识别多密度聚类簇的缺陷,提供一种基于网格的空间多尺度快速聚类方法。本专利技术解决其技术问题所采用的技术方案是:本专利技术提供一种基于网格的空间多尺度快速聚类方法,该方法包括以下步骤:S1、获取包含N维样本的海量点数据集,选定一个数据尺度,以该尺度上各数据维度属性的分辨率作为划分网格单元大小的依据,将N维空间划分成不相交的网格单元;统计落在每个网格单元中原始数据点的数量,将其定义为网格单元的密度属性,以此构建网格密度 ...
【技术保护点】
1.一种基于网格的空间多尺度快速聚类方法,其特征在于,该方法包括以下步骤:S1、获取包含N维样本的海量点数据集,选定一个数据尺度,以该尺度上各数据维度属性的分辨率作为划分网格单元大小的依据,将N维空间划分成不相交的网格单元;统计落在每个网格单元中原始数据点的数量,将其定义为网格单元的密度属性,以此构建网格密度矩阵;S2、指定密度阈值T,对网格单元进行筛选并得到满足阈值条件的新网格密度矩阵;S3、指定一个滤波器模板,对密度阈值过滤后的网格密度矩阵进行全局滤波处理;S4、通过邻域搜索,连接密度非零的网格单元生成连通区,对每个连通区包含的网格单元进行积分操作,并根据密度积分阈值V剔除密度积分不满足条件的连通区,得到剔除后的网格连通区;将每个网格连通区作为一个聚类,并将网格单元对应的聚类类别信息映射到原始数据点上,得到最终的聚类结果;S5、对滤波器模板进行尺度变换,使用变换后新生成的滤波器模板对步骤S2中得到的密度矩阵重复步骤S3和步骤S4,得到不同观察尺度下的聚类结果;S6、改变数据尺度,以新的网络单元格大小对N维空间重新进行网格划分,重复步骤S1至步骤S5,得到不同数据尺度下的聚类结果。
【技术特征摘要】
1.一种基于网格的空间多尺度快速聚类方法,其特征在于,该方法包括以下步骤:S1、获取包含N维样本的海量点数据集,选定一个数据尺度,以该尺度上各数据维度属性的分辨率作为划分网格单元大小的依据,将N维空间划分成不相交的网格单元;统计落在每个网格单元中原始数据点的数量,将其定义为网格单元的密度属性,以此构建网格密度矩阵;S2、指定密度阈值T,对网格单元进行筛选并得到满足阈值条件的新网格密度矩阵;S3、指定一个滤波器模板,对密度阈值过滤后的网格密度矩阵进行全局滤波处理;S4、通过邻域搜索,连接密度非零的网格单元生成连通区,对每个连通区包含的网格单元进行积分操作,并根据密度积分阈值V剔除密度积分不满足条件的连通区,得到剔除后的网格连通区;将每个网格连通区作为一个聚类,并将网格单元对应的聚类类别信息映射到原始数据点上,得到最终的聚类结果;S5、对滤波器模板进行尺度变换,使用变换后新生成的滤波器模板对步骤S2中得到的密度矩阵重复步骤S3和步骤S4,得到不同观察尺度下的聚类结果;S6、改变数据尺度,以新的网络单元格大小对N维空间重新进行网格划分,重复步骤S1至步骤S5,得到不同数据尺度下的聚类结果。2.根据权利要求1所述的基于网格的空间多尺度快速聚类方法,其特征在于,步骤S1的具体方法为:S11、获取包含N维样本的海量点数据集X={x1,x2,x3,x4},根据数据尺度下各维度属性的分辨率,确定在该数据尺度下每个维度上的网格尺寸E={ε1,ε2,ε3...εd};S12、根据数据集X上各维度属性取值的最大最小值,分别计算网格各维度的划分数量,并据此对各个维度空间进行网格划分:其中,mi表示第i个维度上网格的划分数量,xi为X中所有样本第i个维属性值构成的向量,max(Xi)和min(Xi)分别是向量Xi对应属性维度取值的最大和最小值,则M构成了d维属性空间各属性维度划分数量的向量表达;S13、遍历原始数据点集,把每一个点都映射到相应的网格中:定义网格集合G(g1,g2,g3...gs)为所有网格单元构成的集合(其中),G0为缓存网格集合,用来缓存与当前点存在交集的网格,即包含该点的网格;遍历点集,若对于点集中的某一点xj=(a1,a2,a3...ad),则把gi加入进缓存网格集合中,即令G0=G0∪{gi};根据点在网格单元中的隶属关系,调整网格单元密度;若点落在某一网格内部,则令该网格密度值增加1;若点落在网格边线上,那么该点与两个网格单元存在交集,则令这两个网格单元的密度值同时增加0.5;若点落在四个网格共享的顶点处,则令这四个网格单元的密度值同时增加0.25,即采用如下公式更新网格密度矩阵中各个网格单元对应的密度值:其中Matrix0(G0)表示集合G0所包含网格在密度矩阵Matrix0中对应的密度值,|G0|表示G0中元...
【专利技术属性】
技术研发人员:桂志鹏,隆玺,彭德华,吴华意,
申请(专利权)人:武汉大学,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。