一种大规模GIS数据分布式处理的方法和系统技术方案

技术编号:36695711 阅读:18 留言:0更新日期:2023-02-27 20:07
本发明专利技术公开了一种大规模GIS数据分布式处理的方法和系统,包括处理器,所述处理器的输入端单向电性连接有输入模块,所述处理器的输出端单向电性连接有计算分析模块,所述处理器的输出端单向电性连接有数据集转换模块。本发明专利技术通过使用该系统对百万级地类图斑数据进行处理发布后,数据查询服务能够秒级内返回结果,提升响应效率,同时也提供百万级数据的空间分析能力,具体查询时间在200毫秒左右,大范围空间数据出图在2秒内,基于分布式存储与内存计算,满足海量数据对于高效计算与并发访问的要求,扩展弹性分布式空间数据集,具有空间SQL查询分析能力,低内存消耗,相比与其它基于Spark的空间数据框架,内存消耗减少50%以上。内存消耗减少50%以上。内存消耗减少50%以上。

【技术实现步骤摘要】
一种大规模GIS数据分布式处理的方法和系统


[0001]本专利技术涉及GIS系统
,具体为一种大规模GIS数据分布式处理的方法和系统。

技术介绍

[0002]传统GIS系统对海量空间数据的管理能力弱,计算处理反应慢、周期长的,为了实现快速的运算和管理,继续推出一种可以显著提高大规模空间数据的计算效率,实现秒级响应,快速计算得到数据统计分析结果,且能够并提供OGC标准的服务接口,便于对空间数据处理的二次开发的系统。

技术实现思路

[0003]本专利技术的目的在于提供一种大规模GIS数据分布式处理的方法和系统,具备高效的优点,解决了传统GIS系统对海量空间数据的管理能力弱,计算处理反应慢、周期长的问题。
[0004]为实现上述目的,本专利技术提供如下技术方案:一种大规模GIS数据分布式处理的方法和系统,包括处理器,所述处理器的输入端单向电性连接有输入模块,所述处理器的输出端单向电性连接有计算分析模块,所述处理器的输出端单向电性连接有数据集转换模块,所述数据集转换模块的输出端单向电性连接有数据集发布模块,所述处理器的输出端单向电性连接有数据管理模块,所述处理器包括存储、索引创建、分布式数据集和计算处理。
[0005]优选的,所述存储是分布式存储,分布式文件系统是一个高度容错性的系统,适合部署在廉价的机器上,能提供高吞吐量的数据访问,适合超大数据集的应用,根据分布式存储的特点,将SHP或GDB格式的矢量数据转化为易于分块的CSV文件格式,把空间信息存储到WKB字符串中,存储分块大小设置为64MB,通过hdfs提供的接口将CSV格式的矢量数据上传到分布式存储系统中。
[0006]优选的,所述索引创建依赖于分布式文件系统,将传统的GIS数据文件分解到分布式文件系统中,并在此基础上,构建基于分布式的空间数据索引,对于所有录入到系统的空间数据都有数据元表进行描述,在数据元表中对数据都进行了标识,每个独立的空间数据都有空间索引数据加速空间数据的查询以及分析,空间数据的索引是多级索引的方式,采用分布式集群索引的方式,根据数据的类型、数据量以及操作模式构建不同的空间数据索引集群,空间数据索引集群是一个逻辑控制节点,其记录了此集群中数据存储的节点信息,数据的类型,数据的分布情况,数据的元数据信息等。
[0007]优选的,所述分布式数据集是使用Apache Sedona大规模空间数据处理集群框架,基于Spark扩展了一组空间弹性分布式数据集SpatialRDD,包括PointRDD、LineStringRDD、PolygonRDD、RectangleRDD、CircleRDD等,以及空间查询:范围查询、范围连接查询、距离连接查询、K近邻查询等。
[0008]优选的,所述计算处理是基于以上弹性分布式数据集的基础上,接合实际项目中
对于大规模空间数据处理的需求,开发了一系列计算分析的算法,在传统GIS系统对于空间数据的图属查询,统计分析,叠加分析等方面具有较大的优势,相比其它并行计算框架具有计算效率高,内存消耗低的特点。
[0009]优选的,所述计算分析模块是基于以上数据服务开发计算分析的功能,对于海量空间数据的查询分析,并行处理提供高效的计算服务。
[0010]优选的,所述数据集转换模块针对SHP和GDB数据开发了数据格式转换工具,将数据库形式空间数据转换为CSV格式存储,便于大规模空间数据的分布与并行计算。
[0011]优选的,所述数据集发布模块提供基于hdfs分布式存储的云盘系统,将CSV格式数据文件上传到分布式存储系统,并建立空间索引,完成弹性分布式数据集的初始化,并发布成数据服务,提供数据处理分析能力。
[0012]优选的,所述数据管理模块对分布式存储系统的数据和已经发布的数据服务提供各种管理功能,包括数据集的删除,服务的开启与关闭等。
[0013]与现有技术相比,本专利技术的有益效果如下:1、本专利技术通过使用该系统对百万级地类图斑数据进行处理发布后,数据查询服务能够秒级内返回结果,提升响应效率,同时也提供百万级数据的空间分析能力,具体查询时间在200毫秒左右,大范围空间数据出图在2秒内,基于分布式存储与内存计算,满足海量数据对于高效计算与并发访问的要求,扩展弹性分布式空间数据集,具有空间SQL查询分析能力,低内存消耗,相比与其它基于Spark的空间数据框架,内存消耗减少50%以上,基于本套处理流程,使用百万级的地类图斑数据进行验证,实际处理速度达到秒级响应,满足实际应用需求。
[0014]2、本专利技术高效率:该系统算法基于Spark框架实现,发挥内存计算的优势,提高了海量空间数据处理效率;低成本:提供成熟的空间索引算法与数据转换,快速地与现在系统数据格式进行对接,降低使用成本;易使用:基于该系统,提供标准的对接接口,方便服务调用与二次开发,发挥数据服务的能力。
附图说明
[0015]图1为本专利技术系统原理示意图;图2为本专利技术系统框架图;图3为本专利技术二级分布式空间索引技术图;图4为本专利技术分布式数据集处理图;图5为本专利技术系统流程图。
具体实施方式
[0016]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0017]本专利技术的部件均为通用标准件或本领域技术人员知晓的部件,其结构和原理都为本技术人员均可通过技术手册得知或通过常规实验方法获知。
[0018]请参阅图1

5,一种大规模GIS数据分布式处理的方法和系统,包括处理器,处理器的输入端单向电性连接有输入模块,处理器的输出端单向电性连接有计算分析模块,处理器的输出端单向电性连接有数据集转换模块,数据集转换模块的输出端单向电性连接有数据集发布模块,处理器的输出端单向电性连接有数据管理模块,处理器包括存储、索引创建、分布式数据集和计算处理,存储是分布式存储,分布式文件系统是一个高度容错性的系统,适合部署在廉价的机器上,能提供高吞吐量的数据访问,适合超大数据集的应用,根据分布式存储的特点,将SHP或GDB格式的矢量数据转化为易于分块的CSV文件格式,把空间信息存储到WKB字符串中,存储分块大小设置为64MB,通过hdfs提供的接口将CSV格式的矢量数据上传到分布式存储系统中,索引创建依赖于分布式文件系统,将传统的GIS数据文件分解到分布式文件系统中,并在此基础上,构建基于分布式的空间数据索引,对于所有录入到系统的空间数据都有数据元表进行描述,在数据元表中对数据都进行了标识,每个独立的空间数据都有空间索引数据加速空间数据的查询以及分析,空间数据的索引是多级索引的方式,采用分布式集群索引的方式,根据数据的类型、数据量以及操作模式构建不同的空间数据索引集群,空间数据索引集群是一个逻辑控制节点,其记录了此集群中数据存储的节点信息,数据的类型,数据的分布情况,数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大规模GIS数据分布式处理的方法和系统,包括处理器,其特征在于:所述处理器的输入端单向电性连接有输入模块,所述处理器的输出端单向电性连接有计算分析模块,所述处理器的输出端单向电性连接有数据集转换模块,所述数据集转换模块的输出端单向电性连接有数据集发布模块,所述处理器的输出端单向电性连接有数据管理模块,所述处理器包括存储、索引创建、分布式数据集和计算处理。2.根据权利要求1所述的一种大规模GIS数据分布式处理的方法和系统,其特征在于:所述存储是分布式存储,分布式文件系统是一个高度容错性的系统,适合部署在廉价的机器上,能提供高吞吐量的数据访问,适合超大数据集的应用,根据分布式存储的特点,将SHP或GDB格式的矢量数据转化为易于分块的CSV文件格式,把空间信息存储到WKB字符串中,存储分块大小设置为64MB,通过hdfs提供的接口将CSV格式的矢量数据上传到分布式存储系统中。3.根据权利要求1所述的一种大规模GIS数据分布式处理的方法和系统,其特征在于:所述索引创建依赖于分布式文件系统,将传统的GIS数据文件分解到分布式文件系统中,并在此基础上,构建基于分布式的空间数据索引,对于所有录入到系统的空间数据都有数据元表进行描述,在数据元表中对数据都进行了标识,每个独立的空间数据都有空间索引数据加速空间数据的查询以及分析,空间数据的索引是多级索引的方式,采用分布式集群索引的方式,根据数据的类型、数据量以及操作模式构建不同的空间数据索引集群,空间数据索引集群是一个逻辑控制节点,其记录了此集群中数据存储的节点信息,数据的类型,数据的分布情况,数据的元数据信息等。4.根据权利要求1所述的一种大规模GIS数据分布式处理的方法和系统,其特征在于:所述分布式数据集是使用Apache Sedona大规...

【专利技术属性】
技术研发人员:胡剑锋岳燕
申请(专利权)人:上海飞未信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1