一种基于SPARK的分布式空间数据存储计算方法技术

技术编号：19425135 阅读：54 留言：0更新日期：2018-11-14 10:36

本发明专利技术公开了一种基于SPARK的分布式空间数据存储计算方法，在复用传统地理信息系统软件功能的基础上，运用云计算软件，为空间数据的存储与计算带来高性能和高可用，实现方式包括以顾及空间范围的变长GeoHash编码为空间索引，在HBase上实现兼容多种空间数据类型的分布式空间数据存储表结构；使用MapReduce方法将存储空间数据的文件转换为HBase对应的存储格式HFile，实现分布式空间数据的快速预处理及入库；利用变长GeoHash编码对HBase中存储的空间数据进行空间范围粗检索；将从HBase中获取的空间数据映射为SPARK中的分布式空间弹性数据集对象；复用传统地理信息系统软件功能实现分布式空间弹性数据集的分布式空间数据处理接口，对空间范围粗查询到的空间数据集进行精筛选和分布式计算。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于SPARK的分布式空间数据存储计算方法
本专利技术属于地理信息系统领域，涉及一种分布式空间数据存储计算方法。
技术介绍
近年来，随着传感器技术及对地观测技术的迅猛发展，地理空间大数据已经成为大数据的重要组成部分。空间信息系统管理和处理的数据量已经从TB级增加到PB乃至EB级。空间大数据在类型、采集速度、价值密度、准确性及变化性等方面的特点也增加了地理空间数据管理与处理的复杂性，同时也意味着传统的数据管理系统和计算能力难以满足这些需求。传统地理信息系统(GIS)空间数据存储管理或直接依赖于已有的数据库(如PostGIS、OracleSpatial)，或在其上构建空间数据引擎中间件(如ArcSDE)。但这些方案在分布式地理空间大数据管理与计算上存在不足。近年来面向云环境的分布式空间数据组织管理已成为空间大数据管理的趋势。随着GIS数据走向云环境下的分布式存储，分布式计算框架Hadoop及其改进版本SPARK、分布式文件系统HDFS、分布式数据库HBase等云计算技术和软件设施，为分布式空间数据组织管理带来了前景。其中SPARK框架采用基于内存的分布式处理模式，展现了比Hadoop更好的性能和容错性，在此基础上实现高效的空间数据管理与计算方法显得十分必要。如何将传统GIS软件以较小代价迁移到以SPARK为代表的分布式云环境下，对于云GIS平台软件的研制具有重大意义。目前已有部分工作开始着手SPARK环境下的空间数据组织。然而，现有的工作尚缺乏对已有GIS软件功能的复用，从头开始构建GIS功能的解决方案往往成本高昂、耗时耗力且易出错；其次，目前基于SPAR...

【技术保护点】
1.一种基于SPARK的分布式空间数据存储计算方法，其特征在于：在复用传统地理信息系统软件功能的基础上，运用云计算软件，为空间数据的存储与计算带来高性能和高可用，实现方式包括以下步骤，步骤1，以顾及空间范围的变长GeoHash编码为空间索引，在HBase上实现兼容多种空间数据类型的分布式空间数据存储表结构；步骤2，使用MapReduce方法将存储空间数据的文件转换为HBase对应的存储格式HFile，实现分布式空间数据的快速预处理及入库；步骤3，利用变长GeoHash编码对HBase中存储的空间数据进行空间范围粗检索；步骤4，将从HBase中获取的空间数据映射为SPARK中的分布式空间弹性数据集对象；步骤5，复用传统地理信息系统软件功能实现分布式空间弹性数据集的分布式空间数据处理接口，对空间范围粗查询到的空间数据集进行精筛选和分布式计算。

【技术特征摘要】
1.一种基于SPARK的分布式空间数据存储计算方法，其特征在于：在复用传统地理信息系统软件功能的基础上，运用云计算软件，为空间数据的存储与计算带来高性能和高可用，实现方式包括以下步骤，步骤1，以顾及空间范围的变长GeoHash编码为空间索引，在HBase上实现兼容多种空间数据类型的分布式空间数据存储表结构；步骤2，使用MapReduce方法将存储空间数据的文件转换为HBase对应的存储格式HFile，实现分布式空间数据的快速预处理及入库；步骤3，利用变长GeoHash编码对HBase中存储的空间数据进行空间范围粗检索；步骤4，将从HBase中获取的空间数据映射为SPARK中的分布式空间弹性数据集对象；步骤5，复用传统地理信息系统软件功能实现分布式空间弹性数据集的分布式空间数据处理接口，对空间范围粗查询到的空间数据集进行精筛选和分布式计算。2.根据权利要求1所述基于SPARK的分布式空间数据存储计算方法，其特征在于：步骤1中，设置每种空间要素类对应一张表，对于不同的空间要素几何类型，定义不同的列簇，列簇中的列由空间对象的属性所构成，用时间戳表示数据版本；每个空间对象对应一个行键，由变长GeoHash索引和要素标识符ID组合构成。3.根据权利要求1所述基于SPARK的分布式空间数据存储计算方法，其特征在于：步骤3中，首先根据检索矩形框的最大长宽确定粗检索使用的GeoHash编码长度，保证该编码长度所对应的格网大小能够完全覆盖检索矩形框；然后，计算矩形框重心所在的格网及其相邻八方向格网的GeoHash编码，从而判断并获得检索矩形框所落在的格网范围及编码列表；根据对应编码在HBase空间表中匹配以该编码或其子集+“_”...

【专利技术属性】
技术研发人员：乐鹏，上官博屹，吴昭炎，
申请(专利权)人：武汉大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人