基于时间和空间数据模型的时空数据处理平台及处理方法技术

技术编号:19692151 阅读:25 留言:0更新日期:2018-12-08 11:15
本发明专利技术涉及一种基于时间和空间数据模型的时空数据处理平台及处理方法,属于时空大数据处理和分析技术领域,其通过对时间与空间数据联合建立数据模型,可以实现空间要素随时间的变化,可以将地理事物和现象的时间、空间及属性特征有机结合,可以丰富地理事物和现象作为表达内容,同时支持时空数据快速分析、写入、持久化、多纬度聚合查询。

【技术实现步骤摘要】
基于时间和空间数据模型的时空数据处理平台及处理方法
本专利技术属于时空大数据处理和分析
,具体涉及一种集数据采集、处理、存储、分析于一体的时空大数据处理平台及其处理方法,主要用于时空数据的快速分析、写入、持久化、多纬度聚合查询及交互分析。
技术介绍
随着现代GIS系统(GIS,全称:GeographicInformationScience,地理信息科学的缩写)快速发展和技术应用的深入,很多场景已不再满足于简单的路径截取、位置查询、结果评估,而是要在高时间、高空间多维数据基础上,对数据进行复合查询显示、交互分析、区域统计、历史比较和叠加分析等,这些需求在已有GIS系统里实现起来都非常复杂,需要编写大量程序,开发时间比较长,而且程序运行速度比较慢。为了解决上述问题,提高大规模时空数据分析的效率,例如降低数据分析处理的难度及能够快速的对时空数据进行迭代处理,同时减少程序编写量,缩短开发时间,降低对专业GIS知识的依赖程度,我们开发了基于时间和空间数据模型的时空数据处理平台及其处理方法。
技术实现思路
为了解决现有技术的上述问题,本专利技术提供一种基于时间和空间数据模型的时空数据处理平台,其通过对时间与空间数据联合建立数据模型,可以实现空间要素随时间的变化,将地理事物和现象的时间、空间及属性特征有机结合,以丰富地理事物和现象作为表达内容,同时支持时空数据快速分析、写入、持久化、多纬度聚合查询。本专利技术还提供一种基于时间和空间数据模型的时空数据处理方法,其通过对时间与空间数据联合建立数据模型,可以实现空间要素随时间的变化,将地理事物和现象的时间、空间及属性特征有机结合,以丰富地理事物和现象作为表达内容,同时支持时空数据快速分析、写入、持久化、多纬度聚合查询。为了达到上述目的,本专利技术采用的主要技术方案包括:一种基于时间和空间数据模型的时空数据处理平台,其包括:数据装载模块,作为时空数据处理平台的数据接入组件,用于异构时空数据的接入,例如提供标准的SDK和数据接入方法,为时空数据处理平台及/或第三方数据接入提供标准化的数据接入过程;数据索引模块,用于完成时空数据索引过程,较佳的,当数据接入后,首先对数据按时间和空间进行索引;数据存储模块,用于对索引后的数据进行存储,数据存储较佳是NoSql数据库,也可以是其它数据存储服务,例如HBase、Casandra等;数据查询模块,用于时空数据查询,较佳的,它是数据查询的统一出口,用户可以自定义模型对数据进行查询,查询模型的格式为JSON;数据查询服务支撑模块,用于实现数据存储加密、传输加密、组件服务的高可用等;数据分析模块,用于提供数据分析服务,例如叠加分析、预测、地理代数分析等;数据分析服务支撑模块,用于数据分析的并行计算支撑,其底层基于Spark并行计算框架;基础服务支撑模块,用于实现整个平台的管理,例如:集群服务管理、状态监控、安装部署等。借助上述方案,本专利技术的基于时间和空间数据模型的时空数据处理平台,其通过对时间与空间联合建立数据模型,能够实现空间要素随时间的变化,将地理事物和现象的时间、空间和属性特征有机结合,是集时间和空间地理信息数据采集、处理、存储、展现于一体的时空数据库。本专利技术的一个实施例中,数据接入组件为API编程模型(API,全称ApplicationProgrammingInterface,应用程序编程接口的缩写),借此,使得开发者不仅可以编写新的Java代码,也可以重用现有的通用Java代码,可以降低编写大数据应用所需的专业知识要求,有助于降低应用门槛,使其更易推广普及。例如,现有的演示和可重用的算子就能够促进应用程序的快速开发。较佳的,API编程模型支持原生的Hadoop,原生的Hadoop支持能够使并行数据处理平台(即时空数据处理平台)快速的安装在现有YARN(YARN,全称YetAnotherResourceNegotiator,另一种资源协调者的缩写)集群中。其中,YARN集群包括:若干节点,用于集群目录管理、数据存储、任务调度和任务执行;若干节点管理器NodeManager(NM),用于管理每个节点上的资源和任务;动态的资源池Container,用于封装节点上的对应资源;若干表示对应应用的应用管理器AppMaster(AM),用于对运行在集群中的任务进行管理,每一个应用管理器AppMaster拥有多个资源池Container在节点管理器NodeManager上运行;资源管理器ResourceManager(RM),负责整个YARN集群的资源管理和分配。其中,每个节点管理器可以对应多个资源池Container。其中,节点管理器NodeManager一方面定时地向资源管理器RM汇报本节点上的资源使用情况和各个资源池Container的运行状态;另一方面,它接收并处理来自应用管理器AM的资源池Container启动/停止等各种请求。借助上述YARN集群结构,当结点运行失败时,能够通过资源管理器自动恢复,而无任何状态和数据的丢失。同时,使得本专利技术的时空数据处理平台能够在Hadoop集群上以线性的方式进行扩展,达到每秒处理数十亿事件的水平。其中,所述YARN集群设置HDFS(HDFS是HadoopDistributeFileSystem的简称,也就是Hadoop的一个分布式文件系统)作为后端的检查点机制,能够保证无论是机器故障或处理流程发生失败时,都能够将应用状态保存,保证使其自动快速恢复。在实际应用时,客户在并行处理管理平台提交任务包,Hadoop集群上的资源管理器接受客户提交的任务包,根据各节点的节点状态、资源请求管理和分配YARN集群的资源,例如向各节点分配节点任务,进而完成任务包的处理。其中,各节点的节点管理器向资源管理器反馈各节点的节点状态。其中,各节点的节点任务向本节点或其他节点的资源池中的应用管理器反馈任务状态。其中,各节点的资源池中的应用管理器向资源管理器请求资源。借此,本专利技术的并行数据处理平台可以实现高可用的事件流转。本专利技术的一个实施例中,数据装载模块包括下列组件中的任一个或任几个:时间一致性组件,用于实现数据的时间一致性控制,即将时间格式统一为标准的UTC时间;空间一致性组件,用于实现数据的空间一致性控制,对所有数据添加经度、纬度和高度3个基本空间属性;存储协议标准化组件,用于统一数据存储格式,对数据进行压缩转换,提高存储空间利用率;自定义协议组件,用于数据传输协议的标准化,例如TCP、Avro、Thrift。借此,可以进行时间和空间数据信息的采集,支持时空数据的快速写入,进行统一数据装载,有利于降低数据分析处理的难度,提高平台整体运行速度,解决大规模时空数据分析的效率问题。其中,数据装载模块还包括下列组件中的任一个或任几个:TJSJMangement组件(即并行处理管理组件),用于供应用管理员进行管理、监控和可视化操作;TJSJAssemble程序组件(即装配程序组件),用于供用户直观地构建各种数据接入组件。应用管理员可以从TJSJMangement组件(即并行处理管理组件)完成一整套的管理、监控和可视化操作,可以通过TJSJAssemble程序组件(即装配程序组件)这个程序组件装配工具,来直观的构建各种数据接入组件。本发本文档来自技高网...

【技术保护点】
1.一种基于时间和空间数据模型的时空数据处理平台,其包括:数据装载模块,作为时空数据处理平台的数据接入组件,用于异构时空数据的接入;数据索引模块,用于完成时空数据索引过程;数据存储模块,用于对索引后的数据进行存储;数据查询模块,用于时空数据查询;数据查询服务支撑模块,用于实现包括数据存储加密、传输加密、组件服务的高可用;数据分析模块,用于提供数据分析服务;数据分析服务支撑模块,用于数据分析的并行计算支撑;基础服务支撑模块,用于实现整个平台的管理。

【技术特征摘要】
1.一种基于时间和空间数据模型的时空数据处理平台,其包括:数据装载模块,作为时空数据处理平台的数据接入组件,用于异构时空数据的接入;数据索引模块,用于完成时空数据索引过程;数据存储模块,用于对索引后的数据进行存储;数据查询模块,用于时空数据查询;数据查询服务支撑模块,用于实现包括数据存储加密、传输加密、组件服务的高可用;数据分析模块,用于提供数据分析服务;数据分析服务支撑模块,用于数据分析的并行计算支撑;基础服务支撑模块,用于实现整个平台的管理。2.如权利要求1所述的基于时间和空间数据模型的时空数据处理平台,其特征在于:数据装载模块包括下列组件中的任一个或任几个:时间一致性组件,用于实现数据的时间一致性控制;空间一致性组件,用于实现数据的空间一致性控制,对所有数据添加经度、纬度和高度3个基本空间属性;存储协议标准化组件,用于统一数据存储格式,对数据进行压缩转换,提高存储空间利用率;自定义协议组件,用于数据传输协议的标准化;并行处理管理组件,用于供应用管理员进行管理、监控和可视化操作;装配程序组件,用于供用户直观地构建各种数据接入组件;数据索引模块设置有下列组件中的任一个或任几个:时间数据索引模块,用于实现对数据按时间属性进行索引;空间数据索引模块,用于实现对数据按空间属性进行索引;BTREE模块,用于低纬度数据的索引;RTREE模块,用于高纬度数据的索引;倒排索引模块,用于提高数据查询效率,对需要查询和检索的属性创建倒排索引;自定义索引模块,用于供用户自定义创建索引;数据存储模块包括下列组件中的任一个或任几个:行存储模块,用于数据管理应用较多的场景;列存储模块,用于实时计算且数据量较大的应用场景;向量存储模块,用于地理数据模型中区域、道路、河流的存储;格点存储模块,根据相应的数据精度对数据进行格点化并存储到系统中;聚合存储模块,用于对数据进行预计算,在数据接入的进程按照一定的规则和维度,对数据的指标进行计算并存储;数据查询模块包括下列组件中的任一个或任几个:解析模块,用于自定义查询模型的解析;查询缓存模块,用于模型查询结果缓存;查询适配器模块,用于将模型查询语句指向对应的数据存储;数据分析模块包括索引元数据模块,用于存储时间和空间数据的索引元数据。3.如权利要求2所述的基于时间和空间数据模型的时空数据处理平台,其特征在于,索引元数据模块包括下列组件中的任一个或任几个:时空索引模块,用于时空索引元数据存储;聚合索引模块,用于聚合索引元数据存储;自定义索引模块,用于自定义索引元数据存储。4.如权利要求1-3中任一项所述的基于时间和空间数据模型的时空数据处理平台,其特征在于,还包括下列组件中的任一个或任几个:时空数据查询引擎,作为统一的时空数据出口,较佳的,所述时空数据查询引擎是构建在Spark并行处理框架基础上的数据分析与处理系统;访问控制模块,用于对数据进行权限访问控制和管理(较佳的,访问控制模块包括数据访问监视器,用于对任务数据的进出进行监视并做记录,以便做到数据来去可控。其中,数据访问监视器是从数据访问主体、客体,以及为识别和验证这些实体的子系统和控制实体间访问来建立的);对关键数据存储进行加密的关键数据存储加密模块,较佳的,其不对全量数据进行加密,而只对部分关键数据进行加密,即使数据泄漏也必须使用特定算法进行解密才可以查看,借以在保证数据安全的前提下,提高数据加载的效率;对数据文件进行分布式存储和批量还原的存储异形模块,借此,将时空数据处理平台里面的数据文件通过分布式文件系统进行存储,使其只具有极低的可还原特性,即便单一服务器单一文件泄漏时,也需要通过集群统一文件批量才能进行还原,借以提高数据存储的安全性。5.如权利要求4所述的基于时间和空间数据模型的时空数据处理平台,其特征在于:所述时空数据查询引擎具有下列组件中的任一个或任几个:API网关,用于实现RESTApi服务的统一管理、认证、路由;API及数据权限管理模块,用于实现RESTApi服务权限管理和控制;数据缓存服务模块,用于模型查询结果的缓存;DQL查询解析引擎,用于实现自定义查询模型的语法解析(较佳的,DQL查询解析引擎具有下列组件中的任一个或任几个:解析器,用于解析模型语言,转化为时空数据存储的查询语言;查询模块,以并行或串行的方式查询;查询结果缓存模块,通过层次组合将首次查询结果缓存;结果预报模块,用于为机器学习、AI智能分析、结果预测提供基础服务支撑,优先预报时效组合;聚合输出模块,将查询数据聚合并输出);数据分析服务模块,用于实现时空数据地理代数分析、叠加分析、预测等;时间数据模型管理模块,用于提供查询模型的基础管理功能;并行任务处理框架模块,用于任务处理框架模块,用于为数据处理的并行计算过程提供服务支撑;RESTAPI模块,用于为平台所有数据分析、存储、控制和管理提供标准的RESTAPI服务。6.一种基于时间和空间数据模型的时空数据处理方法,其特征在于,其对时间和多维空间数据联合建立数据模型,实现多维空间要素随时间的变化。7.如权利要求6所述的基于时间和空间数据模型的时空数据处理方法,其特征在于,其包括如下步骤:S1、利用数据装载模块对时间数据和多维空间数据进行统一装载;S2、对时间数据和多维空间数据进行统一的索引与存储,建立时空数据库;S3、根据请求对时空数据库进行查询分析,据此得到时间与多维空间属性特征相结合的结果。8.如权利要求7所述的基于时间和空间数据模型的时空数据处理方法,其特征在于,其具有下列方式中的任一种或任几种:方式一、步骤S1中,数据装载是通过API编程模型编写新的和/或重用现有的通用Java代码实现的,借此,现有的演示和可重用的算子能够促进应用程序快速开发。方式二、方式一的基础上,API编程模型支持原生的Hadoop,原生的Hadoop支持能够使时空数据处理平台快速的安装在现有的YARN集群中;方式三、方式二的基础上,API编程模型使得时空数据处理平台能够在Hadoop集群上以线性的方式进行扩展;方式四、方式一的基础上,基于HDFS的后端检查点机制,能够保证无论是机器故障或处理流程发生失败时,都能够将应用状态保存,保证使其自动快速恢复;方式五、方式一、二、三或四的基础上,数据装载模块包括下列组件中的任一个或任几个:TJSJMangement组件(即并行处理管理组件),用于供应用管理员进行管理、监控和可视化操作;...

【专利技术属性】
技术研发人员:殷晋
申请(专利权)人:北京天机数测数据科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1