空间大数据分区重复数据的剪枝方法技术

技术编号:31802011 阅读:10 留言:0更新日期:2022-01-08 11:03
本发明专利技术提出了一种空间大数据分区重复数据的剪枝方法,该剪枝方法可以内置在分布式空间大数据查询系统中并无需对候选结果执行细化操作。包括以下步骤:首先读取空间大数据的分区信息p

【技术实现步骤摘要】
空间大数据分区重复数据的剪枝方法


[0001]本专利技术涉及空间大数据管理领域,尤其涉及一种空间大数据分区重复数据的剪枝方法。

技术介绍

[0002]分布式数据存储是应对空间大数据存储挑战的主要解决途径,对于空间大数据,数据分区已成为分布式存储的必不可少的操作。对国内外研究总结,针对空间大数据分区主要采用R树及R树变体结构,如R*、STR和STR+等,R树是一种专用于空间数据组织管理的数据结构,能保留空间邻近性特性,但是会产生大量边界重合,即分区重叠,该问题对空间数据查询(如范围查询和k

NN查询)中分区重复数据快速过滤造成了巨大挑战。
[0003]然而现有的分区重复数据剪枝技术主要是对查询结果集的细化,在单机环境下遍历或集群环境下并行迭代的方式对查询结果集进行剪枝,这是一个额外的独立操作,操作的时间复杂度是为O(n2),n是查询结果项,细化操作的时间成本与查询结果集大小成幂函数,且n的大小伴随查询范围的不同而大小不一,这种因素会导致查询效率较低且无法获得粗略的响应时间。

技术实现思路

[0004]根据上述提出查询效率较低且无法获得粗略的响应时间的技术问题,而提供一种空间大数据分区重复数据的剪枝方法。本专利技术主要利用内置在分布式空间数据查询系统中并无需对候选结果再次执行细化操作。
[0005]本专利技术包括一种空间大数据分区重复数据的剪枝方法,其特征在于,包括以下步骤:
[0006]步骤1:分区信息的读取;在读取数据块前,先读取空间索引信息,获得空间数据的分区信息,采用遍历方式依次判断分区是否与空间查询窗口重叠,计算出出所有与空间查询窗口重叠分区p
i
,得到分区p
i
覆盖的空间最小边界矩形r
i

[0007]步骤2:确定重复数据的归属分区;将最小边界矩形r
i
与空间查询矩形窗口q做交运算,得到每个分区的查询范围s
i
=r
i
∩q,查询范围s是矩形,表示为(x1,y1,x2,y2),对分区p
i
和p
j
(i≠j)的查询范围s
i
和s
j
做交运算,得到分区之间的重叠矩形区域s
ij
=s
i
∩s
j
,引入参照点reference_point,若s
i
.y2==reference_point.y,则将s
ij
包含的重复数据划分给s
j
,反之划分给s
i
,以此通过reference_point决定区域s
ij
的归属分区,根据归属分区计算出p
i
和p
j
的去重后的查询范围tr
i
和tr
j
,并存储在Map集合中,形式为<p
i
,tr
i
>;
[0008]步骤3:分区范围的确定;对分区p
i
下的所有去重后的查询范围tr执行交运算,得到分区p
i
的最终查询范围;
[0009]步骤4:生成查询结果;将所说每个分区的最终查询范围作为新的约束条件替换掉所说空间查询矩形窗口q对分区重复数据进行剪枝,得到的查询结果即为最终结果。
[0010]进一步地,所述步骤1中所述分区定义为:
[0011][0012]进一步地,所述步骤2中所述参照点的公式为:
[0013][0014]其中,表示分区p
i
的矩形查询范围s
i
的x1坐标值,表示分区p
i
的矩形查询范围s
i
的y2坐标值。较现有技术相比,本专利技术具有以下优点:
[0015]本专利技术克服上述现有技术的不足,提供一种新的空间大数据查询中分区重复数据的剪枝方法,1)可将分区重复数据在输出查询结果集之前剔除,无需执行独立的过滤操作,且时间复杂度为O(m),m是空间大数据分区个数,大大降低了查询响应时间;2)剪枝方法理论推导,易于实现,且可以与现有的大多数空间大数据系统兼容,方便研究人员实现使用。
附图说明
[0016]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0017]图1为本专利技术整体流程示意图。
[0018]图2为本专利技术内置在Hadoop平台上的结构示意流程图。
[0019]图3为三种数据集在不同空间查询窗口下的空间范围查询性能图。
具体实施方式
[0020]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0021]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0022]如图1所示,本专利技术所述的剪枝方法包括以下步骤:
[0023]步骤1:分区信息的读取;在读取数据块前,先读取空间索引信息,获得空间数据的分区信息,采用遍历方式依次判断分区是否与空间查询窗口重叠,计算出出所有与空间查询窗口重叠分区p
i
,得到分区p
i
覆盖的空间最小边界矩形r
i

[0024]步骤2:确定重复数据的归属分区;将最小边界矩形r
i
与空间查询矩形窗口q做交运算,得到每个分区的查询范围s
i
=r
i
∩q,查询范围s是矩形,表示为(x1,y1,x2,y2),对分区p
i
和p
j
(i≠j)的查询范围s
i
和s
j
做交运算,得到分区之间的重叠矩形区域s
ij
=s
i
∩s
j
,引入参照点reference_point,若s
i
.y2==reference_point.y,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种空间大数据分区重复数据的剪枝方法,其特征在于,包括以下步骤:步骤1:分区信息的读取;在读取数据块前,先读取空间索引信息,获得空间数据的分区信息,采用遍历方式依次判断分区是否与空间查询窗口重叠,计算出出所有与空间查询窗口重叠分区p
i
,得到分区p
i
覆盖的空间最小边界矩形r
i
;步骤2:确定重复数据的归属分区;将最小边界矩形r
i
与空间查询矩形窗口q做交运算,得到每个分区的查询范围s
i
=r
i
∩q,查询范围s是矩形,表示为(x1,y1,x2,y2),对分区p
i
和p
j
(i≠j)的查询范围s
i
和s
j
做交运算,得到分区之间的重叠矩形区域s
ij
=s
i
∩s
j
,引入参照点reference_point,若s
i
.y2==reference_point.y,则将s
ij
包含的重复数据划分给s
j
,反之划分给s
i
,以此通过reference_point决定区域s
ij
的归属分区,根据归属分区计...

【专利技术属性】
技术研发人员:张维石田瑞杰翟华伟崔立成周立甲
申请(专利权)人:大连海事大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1