大规模空间数据环境下基于二级索引的通用查询算法制造技术

技术编号：21913929 阅读：19 留言：0更新日期：2019-08-21 12:25

大规模空间数据环境下基于二级索引的通用查询算法，属于数据查询领域，为了解决非行键属性实时范围查询的问题，框架由以下几部分组成：客户端、Spark计算模块、HBase数据处理模块；算法执行如下：在HBase数据处理模块和Spark计算模块的Schema基础上调用SparkContext提供的API建立HBase的原始数据的RDD，RDD经过不断转化形成二级索引存放在Spark Memory中，效果是提高了大规模空间数据范围查询的效率。

General query algorithm based on secondary index in large-scale spatial data environment

全部详细技术资料下载

【技术实现步骤摘要】
大规模空间数据环境下基于二级索引的通用查询算法
本专利技术属于数据查询领域，涉及一种大规模空间数据环境下基于二级索引的通用查询算法。
技术介绍
空间索引可以解决空间数据近邻查询问题，但是不能解决非行键属性实时范围查询的问题。而现有的二级索引的设计灵感来源于倒排的思想，将主数据表的键值对倒置。Solr是一个高性能的基于Lucene的企业级全文搜索服务器，Solr+HBase的二级索引方案是基于Solr集群搭建的搜索引擎来查找结构化数据，基于HBase搭建的数据存储云来存储海量数据。
技术实现思路
为了解决非行键属性实时范围查询的问题，本专利技术提出如下技术方案：一种大规模空间数据环境下基于二级索引的通用查询算法，框架由以下几部分组成：客户端、Spark计算模块、HBase数据处理模块；算法执行如下：在HBase数据处理模块和Spark计算模块的Schema基础上调用SparkContext提供的API建立HBase的原始数据的RDD，RDD经过不断转化形成二级索引存放在SparkMemory中；根据客户端的查询请求并行筛选二级索引模块，筛选出满足查询条件的Rowkey后从HBase中查询数据并返回结果给客户端。进一步的，将倒排索引和GeoHash算法结合形成InvertedGeoHash索引，其模型为IG索引的模型，该模型的倒排GeoHash索引包含两部分：第一部分，是空间数据对象与其所在的GeoHash网格的映射；第二部分，是网格编码与存储在其中的所有数据对象的映射；利用GeoHash算法将地球划分成多个网格，对每个网格中的空间数据对象构建空间二级索引，通过每...

【技术保护点】
1.一种大规模空间数据环境下基于二级索引的通用查询算法，其特征在于，框架由以下几部分组成：客户端、Spark计算模块、HBase数据处理模块；算法执行如下：在HBase数据处理模块和Spark计算模块的Schema基础上调用SparkContext提供的API建立HBase的原始数据的RDD，RDD经过不断转化形成分布式二级索引存放在SparkMemory中；根据客户端的查询请求并行筛选二级索引模块，筛选出满足查询条件的Rowkey后从HBase中查询数据并返回结果给客户端。

【技术特征摘要】
1.一种大规模空间数据环境下基于二级索引的通用查询算法，其特征在于，框架由以下几部分组成：客户端、Spark计算模块、HBase数据处理模块；算法执行如下：在HBase数据处理模块和Spark计算模块的Schema基础上调用SparkContext提供的API建立HBase的原始数据的RDD，RDD经过不断转化形成分布式二级索引存放在SparkMemory中；根据客户端的查询请求并行筛选二级索引模块，筛选出满足查询条件的Rowkey后从HBase中查询数据并返回结果给客户端。2.如权利要求1所述的大规模空间数据环境下基于二级索引的通用查询算法，其特征在于，将倒排索引和GeoHash算法结合形成InvertedGeoHash索引，其模型为IG索引的模型，该模型的倒排GeoHash索引包含两部分：第一部分，是空间数据对象与其所在的GeoHash网格的映射；第二部分，是网格编码与存储在其中的所有数据对象的映射；利用GeoHash算法将地球划分成多个网格，对每个网格中的空间数据对象构建空间二级索引，通过每个网格的GeoHash编码反向索引其包含的空间对象的Rowkey，使用GeoHash算法和Base32编码对空间数据地理信息降维得到的一维字符串作为二级索引的key，每个空间数据在HBase表中的行键信息作为二级索引的value，GeoHash划分的矩形区域中，每一个区域都有固定的编码，同一个区域内的点编码都相同，通过改变GeoHash编码的长度改变矩形区域的覆盖范围。3.如权利要求2所述的大规模空间数据环境下基于二级索引的通用查询算法，其特征在于，由Spark编程模型构建二级索引：(1)使用read.parquet加载数据信息并创建parquetRDD；(2)使用该算子并行在每个分区调用geoHash算法的API，将parquetRdd转换成mapPa...

【专利技术属性】
技术研发人员：季长清，汪祖民，高杨，
申请(专利权)人：大连大学，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人