一种云环境下的空间数据划分方法技术

技术编号:8271467 阅读:153 留言:0更新日期:2013-01-31 03:42
本发明专利技术公开了一种云环境下的空间数据划分方法,属于计算机网络技术领域。本发明专利技术首先利用Hilbert曲线编码方法将空间数据对象进行平均划分,然后在此基础上利用改进的k-均值聚类算法将空间相邻的数据对象尽可能地划分在同一类中。本发明专利技术综合了现有均值法和k均值聚类算法各自的优点,很好满足了空间数据划分的准则,能均衡的将地理空间数据分配给map-reduce进行处理建立R树,从而提高地理空间数据索引效率,且本发明专利技术方法计算复杂度低,算法实时性好。

【技术实现步骤摘要】
本专利技术涉及一种云环境下的空间数据划分方法,属于计算机网络

技术介绍
云计算是一种分布式系统能将计算任务分给多台机器来处理,能对各种应用系统提供计算力、存储空间和信息服务。现在职呢办公司和开源云计算平台等都使用map-reduce并行计算模型。该模型为海量数据的处理提供了一个通用、高效的技术框架,从而在地理空间数据查询处理、数据挖掘等领域得到了越来越广泛的应用。当今,提高地理空间数据索引效率是个热点问题,如何找到一种有效的方法在云平台上建立索引机制具有重要的意义。W树是个高度平衡树,用空间对象的#份?(最小外接矩形)来近似表示空间数据对象,根据对象的#份 建立树,并可以直接对空间中占据一定 范围的空间数据对象进行索引。如何找到一种算法划分空间数据对象使得树满足空间数据对象划分的准则(数据量平衡准则、空间关系平衡准则),有效地提高空间数据的索引效率。已有的并行空间数据库中的分配方法不适合云计算平台,且大都是按空间区域平均划分,这样很难满足空间数据对象划分的准则。Ariel 等人提出了用Z曲线编码空间数据对象,然后根据《部节点的数目,按空间数据量平均划分,把得到的每个部分交给 ^处理得到R树,这种方法不满足空间关系平衡原则,即划分不能保证空间相邻的对象在树的同一分支上,以致索引效率降低。Shubin zhang等人提出了基于空间填充曲线的划分和轮转法结合的划分方法,但这种方法既不满足空间关系平衡原则,也不满足数据平衡准则,这种方法划分的结果在map-reduce上建立的R树的索引效率非常低 贾婷等人提出一种A均值聚类算法的空间数据划分方法,把空间数据划分的结果分配给不同的计算节点。这种方法不满足数据量平衡原则,A均值聚类算法只能保证空间相邻的对象在同一族,但不能保证每个族的大小相对平衡。刘润涛等人提出用A均值聚类算法建立7 树,只是简单地考虑了空间数据对象的相邻关系,并没有考虑数据量平衡原则,这样会使W树的部分分支索引过于频繁,而且没有提出用imp-reduce模型来构建R树,只是简单地并行构建R树,导致效率不高。
技术实现思路
本专利技术所要解决的技术问题在于克服现有技术的不足,提供一种云环境下的空间数据划分方法,能够同时满足空间数据对象划分的数据量平衡准则和空间关系平衡准则,且计算复杂度低,算法实时性好。本专利技术具体采用以下技术方案解决上述技术问题 一种云环境下的空间数据划分方法,包括以下步骤 步骤I、将空间数据库中的各空间数据对象用其最小外接矩形的中心点坐标表示;步骤2、利用Hilbert曲线编码方法将空间数据库中的空间数据对象映射为一维有序数组,并依序将一维有序数组中的元素平均划分为々个类,左为所述云环境中存储节点的数量; 步骤3、计算一维有序数组中每个元素与A个类中心的欧氏距离,对于任意一个元素,如其与当前所属类的中心的距离非最小,且当前所属类中的元素个数大于一预设的阈值,则将该元素划入距离最近的类中心所在类中;所述阈值小于或等于j ,η为所述一维有序数组中的元素个数;k 步骤4、更新々个类中心; 步骤5、重复执行步骤4、步骤5,直到满足预设的迭代停止条件; 步骤6、按照最终的划分结果对空间数据对象进行划分。本专利技术方法首先利用Hilbert曲线编码方法将空间数据对象进行平均划分,然后在此基础上利用改进的左-均值聚类算法将空间相邻的数据对象尽可能地划分在同一类中。本专利技术综合了现有均值法和A均值聚类算法各自的优点,很好满足了空间数据划分的准则,能均衡的将地理空间数据分配给 进行处理建立7 树,从而提高地理空间数据索引效率,且本专利技术方法计算复杂度低,算法实时性好。附图说明图I为本专利技术方法的流程示意图。具体实施例方式下面结合附图对本专利技术的技术方案进行详细说明 在建立云环境下的地理空间数据R树索引结构时,划分空间数据对象应使得树满足空间数据对象划分的数据量平衡准则和空间关系平衡准则。正如
技术介绍
中介绍的,现有均值法的划分方法不满足空间关系平衡原则,即划分不能保证空间相邻的对象在W树的同一分支上,以致索引效率降低;而A均值聚类算法虽然满足了空间关系平衡原则,但却无法满足数据量平衡准则。为解决该问题,本专利技术的思路是先利用Hilbert曲线编码方法将空间数据对象进行平均划分,然后在此基础上利用改进的均值聚类算法将空间相邻的数据对象尽可能地划分在同一类中,这样空间数据划分既满足了数据量平衡准则,又满足了空间关系平衡准则;且通过之前的初步划分,后续的聚类算法的效率可大幅度提高。具体而言,本专利技术的云环境下的空间数据划分方法,如图I所示,包括以下步骤 步骤I、将空间数据库中的各空间数据对象用其最小外接矩形的中心点坐标表示。根据空间数据库中对象的相关概念,以中心点代表空间数据对象(包括点对象,线对象和面对象)。空间数据库中点对象i的中心坐标即为其坐标Cr(i),_F(i))。设线或面对象J的最小外接矩形为,其边界坐标为min_y (J), max_x (J), max_y (J)) ° 令area (MBRiJ))为矩形的面积,则(pl—xij), pi_jU))的中心点坐标,其中X (J) = (min_x (J) +max_x (J) )/2, pi _j (J) = Qnin _j(J)+ max _j (J) )/2 以上定义可以得出空间数据库中无论点对象,线对象或面对象都可以用中心坐标表示。一个样本集有点对象,线对象和面对象组成时,这混合聚类中心点/7的坐标为本文档来自技高网
...

【技术保护点】
一种云环境下的空间数据划分方法,其特征在于,包括以下步骤:步骤1、将空间数据库中的各空间数据对象用其最小外接矩形的中心点坐标表示;步骤2、利用Hilbert曲线编码方法将空间数据库中的空间数据对象映射为一维有序数组,并依序将一维有序数组中的元素平均划分为k个类,k为所述云环境中存储节点的数量;步骤3、计算一维有序数组中每个元素与k个类中心的欧氏距离,对于任意一个元素,如其与当前所属类的中心的距离非最小,且当前所属类中的元素个数大于一预设的阈值,则将该元素划入距离最近的类中心所在类中;所述阈值小于或等于???????????????????????????????????????????????,n为所述一维有序数组中的元素个数;步骤4、更新k个类中心;步骤5、重复执行步骤4、步骤5,直到满足预设的迭代停止条件;步骤6、按照最终的划分结果对空间数据对象进行划分。2012103421709100001dest_path_image002.jpg

【技术特征摘要】
1.一种云环境下的空间数据划分方法,其特征在于,包括以下步骤 步骤I、将空间数据库中的各空间数据对象用其最小外接矩形的中心点坐标表示;步骤2、利用Hilbert曲线编码方法将空间数据库中的空间数据对象映射为一维有序数组,并依序将一维有序数组中的元素平均划分为々个类,左为所述云环境中存储节点的数量; 步骤3、计算一维有序数组中每个元素与A个类中心的欧氏距离,对于任意一个元素,如其与当前所属类的中心的距离非最小,且当前所属...

【专利技术属性】
技术研发人员:刘林峰孙靖吴家皋邹志强
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1