当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于SPARK的分布式空间数据存储计算方法技术

技术编号:19425135 阅读:54 留言:0更新日期:2018-11-14 10:36
本发明专利技术公开了一种基于SPARK的分布式空间数据存储计算方法,在复用传统地理信息系统软件功能的基础上,运用云计算软件,为空间数据的存储与计算带来高性能和高可用,实现方式包括以顾及空间范围的变长GeoHash编码为空间索引,在HBase上实现兼容多种空间数据类型的分布式空间数据存储表结构;使用MapReduce方法将存储空间数据的文件转换为HBase对应的存储格式HFile,实现分布式空间数据的快速预处理及入库;利用变长GeoHash编码对HBase中存储的空间数据进行空间范围粗检索;将从HBase中获取的空间数据映射为SPARK中的分布式空间弹性数据集对象;复用传统地理信息系统软件功能实现分布式空间弹性数据集的分布式空间数据处理接口,对空间范围粗查询到的空间数据集进行精筛选和分布式计算。

【技术实现步骤摘要】
一种基于SPARK的分布式空间数据存储计算方法
本专利技术属于地理信息系统领域,涉及一种分布式空间数据存储计算方法。
技术介绍
近年来,随着传感器技术及对地观测技术的迅猛发展,地理空间大数据已经成为大数据的重要组成部分。空间信息系统管理和处理的数据量已经从TB级增加到PB乃至EB级。空间大数据在类型、采集速度、价值密度、准确性及变化性等方面的特点也增加了地理空间数据管理与处理的复杂性,同时也意味着传统的数据管理系统和计算能力难以满足这些需求。传统地理信息系统(GIS)空间数据存储管理或直接依赖于已有的数据库(如PostGIS、OracleSpatial),或在其上构建空间数据引擎中间件(如ArcSDE)。但这些方案在分布式地理空间大数据管理与计算上存在不足。近年来面向云环境的分布式空间数据组织管理已成为空间大数据管理的趋势。随着GIS数据走向云环境下的分布式存储,分布式计算框架Hadoop及其改进版本SPARK、分布式文件系统HDFS、分布式数据库HBase等云计算技术和软件设施,为分布式空间数据组织管理带来了前景。其中SPARK框架采用基于内存的分布式处理模式,展现了比Hadoop更好的性能和容错性,在此基础上实现高效的空间数据管理与计算方法显得十分必要。如何将传统GIS软件以较小代价迁移到以SPARK为代表的分布式云环境下,对于云GIS平台软件的研制具有重大意义。目前已有部分工作开始着手SPARK环境下的空间数据组织。然而,现有的工作尚缺乏对已有GIS软件功能的复用,从头开始构建GIS功能的解决方案往往成本高昂、耗时耗力且易出错;其次,目前基于SPARK的研究多采用分布式文件系统存储空间数据,而利用HBase等分布式数据库存储并接入SPARK进行计算的方法,由于存在空间数据分布式存储结构与索引设计、空间数据表到SPARK分布式空间弹性数据集的映射等一系列难点,仍有待实现。
技术实现思路
因而为解决上述问题,本专利技术提供了一种基于SPARK的分布式空间数据存储与计算方法,在复用传统地理信息系统软件功能的基础上运用先进的云计算软件为空间数据的存储与计算带来高性能和高可用。本专利技术所采用的技术方案是一种基于SPARK的分布式空间数据存储计算方法,在复用传统地理信息系统软件功能的基础上,运用云计算软件,为空间数据的存储与计算带来高性能和高可用,实现方式包括以下步骤,步骤1,以顾及空间范围的变长GeoHash编码为空间索引,在HBase上实现兼容多种空间数据类型的分布式空间数据存储表结构;步骤2,使用MapReduce方法将存储空间数据的文件转换为HBase对应的存储格式HFile,实现分布式空间数据的快速预处理及入库;步骤3,利用变长GeoHash编码对HBase中存储的空间数据进行空间范围粗检索;步骤4,将从HBase中获取的空间数据映射为SPARK中的分布式空间弹性数据集对象;步骤5,复用传统地理信息系统软件功能实现分布式空间弹性数据集的分布式空间数据处理接口,对空间范围粗查询到的空间数据集进行精筛选和分布式计算。而且,步骤1中,设置每种空间要素类对应一张表,对于不同的空间要素几何类型,定义不同的列簇,列簇中的列由空间对象的属性所构成,用时间戳表示数据版本;每个空间对象对应一个行键,由变长GeoHash索引和要素标识符ID组合构成。而且,步骤3中,首先根据检索矩形框的最大长宽确定粗检索使用的GeoHash编码长度,保证该编码长度所对应的格网大小能够完全覆盖检索矩形框;然后,计算矩形框重心所在的格网及其相邻八方向格网的GeoHash编码,从而判断并获得检索矩形框所落在的格网范围及编码列表;根据对应编码在HBase空间表中匹配以该编码或其子集+“_”为前缀的行健,从HBase中获取对应的空间数据。而且,步骤4中,映射过程如下,首先,利用SPARK内置的HBase读写接口获取HBase表中经过空间索引粗筛选后的数据,生成Hadoop分布式弹性数据集HadoopRDD对象,该对象用于在内存中管理和处理分布式环境下从Hadoop分布式文件系统/数据库中获取的数据集;然后,通过调用HadoopRDD的分布式映射处理接口Map操作,用于分布式地解析空间数据对象和索引,生成分区映射弹性数据集MapPartitionRDD对象,该对象用于管理和处理分布式环境下经过Map操作生成的数据集;最后,调用自定义的转换接口,把解析获取的空间数据对象和其索引数据集传递给新建的分布式空间弹性数据集SpatialRDD对象,完成MapPartitionRDD对象到SpatialRDD对象的转换。而且,将SpatialRDD对象进一步转换为分布式点弹性数据集PointRDD结构、分布式线弹性数据集PolylineRDD结构和分布式面弹性数据集PolygonRDD,包括分布式地将SpatialRDD中未定义几何类型的所有空间数据对象附加指定的几何类型,完成从分布式普通几何类型数据集到分布式特定几何类型数据集的转换;所述分布式点弹性数据集PointRDD结构、分布式线弹性数据集PolylineRDD结构和分布式面弹性数据集PolygonRDD结构,分别用于内存中管理和处理分布式环境下的点Point、线Polyline和面Polygon类型的空间数据集。本专利技术的优点是:(1)提出了一套分布式GIS内核构建方法,能够对海量空间数据进行高效的存储和处理;(2)兼容了传统的地理信息软件内核,如吉奥之星(GeoStar),提高了软件的复用性,节约大量成本;(3)运用了先进的云计算软件(HBase、SPARK等)为空间数据的存储及计算带来高性能与高可用的特色,具有重要的市场价值。附图说明图1是本专利技术实施例的总体实现架构图。图2是本专利技术实施例的HBase空间数据存储表结构图。图3是本专利技术实施例的顾及空间范围的变长GeoHash编码方案示意图。图4是本专利技术实施例的基于GeoHash编码的空间范围检索策略示意图。图5是本专利技术实施例的HBase数据到SPARK分布式空间弹性数据集映射流程图。图6是本专利技术实施例的SPARK分布式空间数据处理流程图。具体实施方式为了便于本领域普通技术人员理解和实施本专利技术,下面结合实例对本专利技术作进一步详细描述,应当理解,此处所描述的实施案例仅用于说明和解释本专利技术,并不用于限定本专利技术。本专利技术提供了一种基于SPARK的分布式空间数据存储计算方法,从分布式空间数据存储结构的设计与实现出发,针对其中的分布式存储和分布式内存对象设计等关键问题,设计了面向列存储的空间数据表结构和基于弹性分布式数据集的分布式内存空间对象,实现了HBase数据表映射转换SPARK分布式内存空间对象进行操作的方法,并通过复用传统GIS软件内核实现对分布式内存空间对象的操作,从而为存储和处理空间大数据提供一种涵盖内外存设计的较为全面的解决方案。实施例总体实现架构参见附图1。云计算资源层作为整个框架的底层提供硬件资源及资源管理能力,可实现节点管理、容错机制、负载均衡、日志管理等;外存层采用分布式数据库与分布式文件系统(如HBase或HDFS)并设计空间表与空间索引;内存计算层则包含了复用传统GIS内核的分布式GIS内核以及构建在内核上的分布式空间处理算子。关键在于复用本文档来自技高网
...

【技术保护点】
1.一种基于SPARK的分布式空间数据存储计算方法,其特征在于:在复用传统地理信息系统软件功能的基础上,运用云计算软件,为空间数据的存储与计算带来高性能和高可用,实现方式包括以下步骤,步骤1,以顾及空间范围的变长GeoHash编码为空间索引,在HBase上实现兼容多种空间数据类型的分布式空间数据存储表结构;步骤2,使用MapReduce方法将存储空间数据的文件转换为HBase对应的存储格式HFile,实现分布式空间数据的快速预处理及入库;步骤3,利用变长GeoHash编码对HBase中存储的空间数据进行空间范围粗检索;步骤4,将从HBase中获取的空间数据映射为SPARK中的分布式空间弹性数据集对象;步骤5,复用传统地理信息系统软件功能实现分布式空间弹性数据集的分布式空间数据处理接口,对空间范围粗查询到的空间数据集进行精筛选和分布式计算。

【技术特征摘要】
1.一种基于SPARK的分布式空间数据存储计算方法,其特征在于:在复用传统地理信息系统软件功能的基础上,运用云计算软件,为空间数据的存储与计算带来高性能和高可用,实现方式包括以下步骤,步骤1,以顾及空间范围的变长GeoHash编码为空间索引,在HBase上实现兼容多种空间数据类型的分布式空间数据存储表结构;步骤2,使用MapReduce方法将存储空间数据的文件转换为HBase对应的存储格式HFile,实现分布式空间数据的快速预处理及入库;步骤3,利用变长GeoHash编码对HBase中存储的空间数据进行空间范围粗检索;步骤4,将从HBase中获取的空间数据映射为SPARK中的分布式空间弹性数据集对象;步骤5,复用传统地理信息系统软件功能实现分布式空间弹性数据集的分布式空间数据处理接口,对空间范围粗查询到的空间数据集进行精筛选和分布式计算。2.根据权利要求1所述基于SPARK的分布式空间数据存储计算方法,其特征在于:步骤1中,设置每种空间要素类对应一张表,对于不同的空间要素几何类型,定义不同的列簇,列簇中的列由空间对象的属性所构成,用时间戳表示数据版本;每个空间对象对应一个行键,由变长GeoHash索引和要素标识符ID组合构成。3.根据权利要求1所述基于SPARK的分布式空间数据存储计算方法,其特征在于:步骤3中,首先根据检索矩形框的最大长宽确定粗检索使用的GeoHash编码长度,保证该编码长度所对应的格网大小能够完全覆盖检索矩形框;然后,计算矩形框重心所在的格网及其相邻八方向格网的GeoHash编码,从而判断并获得检索矩形框所落在的格网范围及编码列表;根据对应编码在HBase空间表中匹配以该编码或其子集+“_”...

【专利技术属性】
技术研发人员:乐鹏上官博屹吴昭炎
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1