当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于网格的空间多尺度快速聚类方法技术

技术编号:18942046 阅读:84 留言:0更新日期:2018-09-15 11:23
本发明专利技术公开了一种基于网格的空间多尺度快速聚类方法,包括:S1、选择数据尺度,确定网格的尺寸,对样本数据进行网格化,统计各网格的密度值;S2、指定初始密度阈值保留满足阈值条件的所有网格,得到初步的密度矩阵;S3、根据观察尺度指定滤波器模板,对全局网格空间进行卷积操作;S4、通过邻域搜索生成连通区作为初步聚类结果;对网格进行积分操作将网格空间映射到原始点集上得到原始点集聚类结果;S5、调整观察尺度,用变换的新滤波器对结果矩阵重复S3和S4,得到下一个观察尺度的聚类结果;S6、改变数据尺度,重复S1至S5,得到不同数据尺度下的聚类结果。本发明专利技术算法复杂度低,聚类效率和精度高,能满足海量点集实时多尺度聚类及可视化分析需求。

A fast multi-scale spatial clustering method based on Grid

The invention discloses a grid-based spatial multi-scale fast clustering method, which comprises: S1, selecting data scale, determining grid size, gridding sample data, and counting the density values of each grid; S2, specifying initial density threshold to retain all grids satisfying threshold conditions, and obtaining initial density matrix; 3. Specify filter template according to observation scale and convolute the global grid space; S4. Generate connected area by neighborhood search as the preliminary clustering result; Map the grid space to the original point set by grid integration operation to get the clustering result of the original point set; S5. Adjust the observation scale and use the new filter of transformation. Repeat the result matrix S3 and S4 to get the clustering results of the next observation scale; S6, change the data scale, repeat S1 to S5, get the clustering results of different data scales. The algorithm has low complexity, high clustering efficiency and precision, and can meet the requirements of real-time multi-scale clustering and visual analysis of mass point sets.

【技术实现步骤摘要】
一种基于网格的空间多尺度快速聚类方法
本专利技术涉及大数据分析挖掘与可视化领域,尤其涉及一种基于网格的空间多尺度快速聚类方法。
技术介绍
聚类是探索性数据分析的一个重要手段,具有广泛的应用。但传统的聚类方法未明确提出数据尺度和观察尺度的概念并说明其在聚类分析中发挥的作用,也很少显式的将这两个尺度因素作为聚类的依据,这限制了我们观察、分析事物的维度,使得聚类结果不够客观全面。尤其是海量时空数据场景下,数据中蕴含的信息通常更加复杂、结构更加丰富,单一尺度的聚类算法很难充分挖掘其中的模式规律。针对现有聚类算法尺度单一导致的认知片面问题,有学者提出了如Ripley,sK函数、层次聚类等多尺度聚类方法,但这些方法通常具有较高的计算复杂度,难以适应海量数据聚类的需求;而小波聚类、STING聚类等基于网格的多尺度聚类算法,虽然聚类效率很高,但尺度定义不够清晰、聚类结果也不够精细,而且难以解决聚类簇内部密度分布变化较大、多个聚类簇之间密度不均的问题。
技术实现思路
本专利技术要解决的技术问题在于针对现有技术中大规模数据集中,聚类尺度单一、聚类效率较低以及网格聚类无法识别多密度聚类簇的缺陷,提供一种基于网格的空间多尺度快速聚类方法。本专利技术解决其技术问题所采用的技术方案是:本专利技术提供一种基于网格的空间多尺度快速聚类方法,该方法包括以下步骤:S1、获取包含N维样本的海量点数据集,选定一个数据尺度,以该尺度上各数据维度属性的分辨率作为划分网格单元大小的依据,将N维空间划分成不相交的网格单元;统计落在每个网格单元中原始数据点的数量,将其定义为网格单元的密度属性,以此构建网格密度矩阵;S2、指定密度阈值T,对网格单元进行筛选并得到满足阈值条件的新网格密度矩阵;S3、指定一个滤波器模板,对密度阈值过滤后的网格密度矩阵进行全局滤波处理;S4、通过邻域搜索,连接密度非零的网格单元生成连通区,对每个连通区包含的网格单元进行积分操作,并根据密度积分阈值V剔除密度积分不满足条件的连通区,得到剔除后的网格连通区;将每个网格连通区作为一个聚类,并将网格单元对应的聚类类别信息映射到原始数据点上,得到最终的聚类结果;S5、对滤波器模板进行尺度变换,使用变换后新生成的滤波器模板对步骤S2中得到的密度矩阵重复步骤S3和步骤S4,得到不同观察尺度下的聚类结果;S6、改变数据尺度,以新的网络单元格大小对N维空间重新进行网格划分,重复步骤S1至步骤S5,得到不同数据尺度下的聚类结果。进一步地,本专利技术的步骤S1的具体方法为:S11、获取包含N维样本的海量点数据集X={x1,x2,x3,x4},根据数据尺度下各维度属性的分辨率,确定在该数据尺度下每个维度上的网格尺寸E={ε1,ε2,ε3...εd};S12、根据数据集X上各维度属性取值的最大最小值,分别计算网格各维度的划分数量,并据此对各个维度空间进行网格划分:M={m1,m2,m3…md},其中,mi表示第i个维度上网格的划分数量,xi为X中所有样本第i个维属性值构成的向量,max(Xi)和min(Xi)分别是向量Xi对应属性维度取值的最大和最小值,则M构成了d维属性空间各属性维度划分数量的向量表达;S13、遍历原始数据点集,把每一个点都映射到相应的网格中:定义网格集合G(g1,g2,g3...gs)为所有网格单元构成的集合(其中),G0为缓存网格集合,用来缓存与当前点存在交集的网格,即包含该点的网格;遍历点集,若对于点集中的某一点则把gi加入进缓存网格集合中,即令G0=G0∪{gi};根据点在网格单元中的隶属关系,调整网格单元密度;若点落在某一网格内部,则令该网格密度值增加1;若点落在网格边线上,那么该点与两个网格单元存在交集,则令这两个网格单元的密度值同时增加0.5;若点落在四个网格共享的顶点处,则令这四个网格单元的密度值同时增加0.25,即采用如下公式更新网格密度矩阵中各个网格单元对应的密度值:其中Matrix0(G0)表示集合G0所包含网格在密度矩阵Matrix0中对应的密度值,|G0|表示G0中元素个数;然后清空缓存集合G0,遍历下一个点对象,直至遍历完所有的点对象,记最终密度矩阵为Matrix1。进一步地,本专利技术的步骤S2的具体方法为:基于密度阈值参数T对Matrix1中每一个网格单元进行阈值筛选,当网格单元密度值小于阈值T时,调整该网格单元密度值为0;否则,不作任何调整;遍历所有网格单元,得到密度阈值过滤后的新网格密度矩阵Matrix2。进一步地,本专利技术的步骤S3的具体方法为:S31、选取一个d维的滤波器模板F=(f1,f2,f3...fd),其中fi是一个长度为l的一维信号向量;S32、对每个数据属性维度分别进行离散卷积操作:其中,Matrix3(k1,k2,...,kd)表示在网格密度矩阵Matrix3中索引为(k1,k2,...,kd)网格单元的密度,符号表示向下取整操作,从而得到卷积之后的网格密度矩阵Matrix3。进一步地,本专利技术的步骤S4的具体方法为:S41、根据Matrix3中密度值非零网格单元之间邻接关系生成网格单元连通区,并为每个连通区赋予不同的类别标签作为初始的聚类结果,连通区计算方法包括四邻域、八邻域及其高维拓展;S42、根据连通区密度积分阈值V分别对每个连通区域中网格单元密度值进行累加,剔除密度积分值小于阈值V的连通区,每个保留下来的满足密度积分阈值条件的连通区域即为一个聚类簇;S43、将网格的连通区结果映射到原始点集,为每一个点赋予所在网格单元对应的类别标签,即得到每个点在该观察尺度下的聚类类属信息;若网格单元不属于任何聚类簇,则对应点属于噪声点。进一步地,本专利技术的步骤S5的具体方法为:S51、根据观察尺度对滤波器模板进行尺度变换,拓展滤波器模板长度。使用滤波器的目的在于除去孤立的噪声网格单元,并通过网格密度补值的方式连接距离邻近但不相邻网格单元,达到网格平滑的效果;通过不断拓展滤波器模板长度,实现由识别高密度热点区域到更大范围中低密度连通区域逐渐拓展的多层次聚类效果,以反映和刻画人观察和认识对象时候的层次化和阶段化过程。滤波器模板拓展方法包括离散二进小波变换和高斯滤波器的参数调整法;S52、将网格矩阵Matrix2作为新的网格矩阵计数,利用新得到的模板对网格矩阵Matrix2进行步骤S3至步骤S4的操作,得到不同观察尺度下的聚类结果。进一步地,本专利技术的步骤S6的具体方法为:改变数据尺度,以该数据尺度上各数据属性维度的分辨率作为依据,重新划分网格空间的单元格大小,重复步骤S1至步骤S5的操作,得到不同数据尺度下的聚类结果。本专利技术产生的有益效果是:本专利技术提出了一种新的基于网格的海量数据多尺度聚类算法处理流程,将数据尺度和观察尺度作为尺度维度引入聚类过程,并通过滤波器模板拓展建立不同尺度聚类结果之间的内在逻辑关系。该算法复杂度低、聚类效率高;同时,相对于小波聚类等基于网格的聚类算法,本算法的聚类结果在聚类边缘的精度表现更好,而且能够解决聚类簇内部密度变化较大、不同聚类簇之间密度分布不均的问题。附图说明下面将结合附图及实施例对本专利技术作进一步说明,附图中:图1是本算法的核心概念图;图2是本算法的计算流程图;图3是不同数据尺度下的一组聚类结果;图4是256×256网格单元数量对本文档来自技高网...

【技术保护点】
1.一种基于网格的空间多尺度快速聚类方法,其特征在于,该方法包括以下步骤:S1、获取包含N维样本的海量点数据集,选定一个数据尺度,以该尺度上各数据维度属性的分辨率作为划分网格单元大小的依据,将N维空间划分成不相交的网格单元;统计落在每个网格单元中原始数据点的数量,将其定义为网格单元的密度属性,以此构建网格密度矩阵;S2、指定密度阈值T,对网格单元进行筛选并得到满足阈值条件的新网格密度矩阵;S3、指定一个滤波器模板,对密度阈值过滤后的网格密度矩阵进行全局滤波处理;S4、通过邻域搜索,连接密度非零的网格单元生成连通区,对每个连通区包含的网格单元进行积分操作,并根据密度积分阈值V剔除密度积分不满足条件的连通区,得到剔除后的网格连通区;将每个网格连通区作为一个聚类,并将网格单元对应的聚类类别信息映射到原始数据点上,得到最终的聚类结果;S5、对滤波器模板进行尺度变换,使用变换后新生成的滤波器模板对步骤S2中得到的密度矩阵重复步骤S3和步骤S4,得到不同观察尺度下的聚类结果;S6、改变数据尺度,以新的网络单元格大小对N维空间重新进行网格划分,重复步骤S1至步骤S5,得到不同数据尺度下的聚类结果。

【技术特征摘要】
1.一种基于网格的空间多尺度快速聚类方法,其特征在于,该方法包括以下步骤:S1、获取包含N维样本的海量点数据集,选定一个数据尺度,以该尺度上各数据维度属性的分辨率作为划分网格单元大小的依据,将N维空间划分成不相交的网格单元;统计落在每个网格单元中原始数据点的数量,将其定义为网格单元的密度属性,以此构建网格密度矩阵;S2、指定密度阈值T,对网格单元进行筛选并得到满足阈值条件的新网格密度矩阵;S3、指定一个滤波器模板,对密度阈值过滤后的网格密度矩阵进行全局滤波处理;S4、通过邻域搜索,连接密度非零的网格单元生成连通区,对每个连通区包含的网格单元进行积分操作,并根据密度积分阈值V剔除密度积分不满足条件的连通区,得到剔除后的网格连通区;将每个网格连通区作为一个聚类,并将网格单元对应的聚类类别信息映射到原始数据点上,得到最终的聚类结果;S5、对滤波器模板进行尺度变换,使用变换后新生成的滤波器模板对步骤S2中得到的密度矩阵重复步骤S3和步骤S4,得到不同观察尺度下的聚类结果;S6、改变数据尺度,以新的网络单元格大小对N维空间重新进行网格划分,重复步骤S1至步骤S5,得到不同数据尺度下的聚类结果。2.根据权利要求1所述的基于网格的空间多尺度快速聚类方法,其特征在于,步骤S1的具体方法为:S11、获取包含N维样本的海量点数据集X={x1,x2,x3,x4},根据数据尺度下各维度属性的分辨率,确定在该数据尺度下每个维度上的网格尺寸E={ε1,ε2,ε3...εd};S12、根据数据集X上各维度属性取值的最大最小值,分别计算网格各维度的划分数量,并据此对各个维度空间进行网格划分:其中,mi表示第i个维度上网格的划分数量,xi为X中所有样本第i个维属性值构成的向量,max(Xi)和min(Xi)分别是向量Xi对应属性维度取值的最大和最小值,则M构成了d维属性空间各属性维度划分数量的向量表达;S13、遍历原始数据点集,把每一个点都映射到相应的网格中:定义网格集合G(g1,g2,g3...gs)为所有网格单元构成的集合(其中),G0为缓存网格集合,用来缓存与当前点存在交集的网格,即包含该点的网格;遍历点集,若对于点集中的某一点xj=(a1,a2,a3...ad),则把gi加入进缓存网格集合中,即令G0=G0∪{gi};根据点在网格单元中的隶属关系,调整网格单元密度;若点落在某一网格内部,则令该网格密度值增加1;若点落在网格边线上,那么该点与两个网格单元存在交集,则令这两个网格单元的密度值同时增加0.5;若点落在四个网格共享的顶点处,则令这四个网格单元的密度值同时增加0.25,即采用如下公式更新网格密度矩阵中各个网格单元对应的密度值:其中Matrix0(G0)表示集合G0所包含网格在密度矩阵Matrix0中对应的密度值,|G0|表示G0中元...

【专利技术属性】
技术研发人员:桂志鹏隆玺彭德华吴华意
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1