当前位置: 首页 > 专利查询>河海大学专利>正文

一种面向分布式环境的空间数据复合处理系统和方法技术方案

技术编号:10804801 阅读:150 留言:0更新日期:2014-12-24 11:48
本方法公开了基于MapReduce并行处理模型,有机结合现有空间数据库与Hadoop并行处理平台进行复合应用的基本方法。本发明专利技术明确了利用复合框架进行空间数据并行处理的基本流程,同时利用分布式块文件系统对空间数据数据进行矩阵化划分与集中式存取,在保证系统高度可扩展性的前提下,能够广泛地对多种空间数据进行支持与高效处理。

【技术实现步骤摘要】
【专利摘要】本方法公开了基于MapReduce并行处理模型,有机结合现有空间数据库与Hadoop并行处理平台进行复合应用的基本方法。本专利技术明确了利用复合框架进行空间数据并行处理的基本流程,同时利用分布式块文件系统对空间数据数据进行矩阵化划分与集中式存取,在保证系统高度可扩展性的前提下,能够广泛地对多种空间数据进行支持与高效处理。【专利说明】
本专利技术涉及,属于信息技术处理领域。
技术介绍
空间数据通常用于描述多维空间内的对象物体。相较于一般关系数据库数据,空间数据具有数据量大、计算复杂度高的特点。空间数据的处理多在特定的空间数据库中完成,而不被一般关系数据库系统所支持。在基于MapReduce并行处理模式的并行处理平台Hadoop中,更是没有实现支持空间数据处理的数据类型和特定算法。而为了实现这种支持,则需要对Hadoop系统在代码级别上进行修改,复杂度高,支持的数据类型有限,且处理效率随模型设计与具体实现水平的不同而参差不齐。 这种实现周期长且处理效率的不一致构成了面向分布式环境的空间数据处理系统的一个技术难点。 目前面向分布式环境的空间数据处理系统的主要实现方法有:Ahmed Eldawy和Mohamed F.Mokbel提出了基于Hadoop平台的空间数据处理系统SpatialHadoop,阐述了利用已有的Hadoop系统,在代码级别上加入对于空间数据类型(点、折线、矩阵与多边形)的支持,以及多种空间数据算法(如窗口查询,k近邻查询等)。空间数据以文本形式通过HDFS进行远程存取与分配,并通过嵌入式空间分配模块的方式,实现空间数据的预分配,达到提高查询效率的目的(Eldawy, A.& MokbeI, M.F.A Demonstrat1n of SpatialHadoop:An Efficient MapReduce Framework for Spatial Data Proc.VLDB Endowment, 2013, 6)。Ablimit Aji和Fusheng Wang等提出了利用Hadoop平台的streaming功能与本地空间数据处理引擎RESQUE进行结合。空间数据也采用文件形式通过HDFS进行远程存取与分配,具体处理则交由分布于各集群计算机中的RESQUE系统。RESQUE中加入了对于若干空间数据类型与处理算法的支持(Aji, A.; Wang, F.; Vo, H.; Lee, R.; Liu, Q.;Zhang, X.& Saltz, J.Hadoop GIS: A High Performance Spatial Data WarehousingSystem Over Mapreduce Proceedings of the VLDB Endowment, VLDB Endowment, 2013,6, 1009-1020)。 目前,涉及到面向分布式环境的空间数据处理方法时,均需通过HDFS系统对数据进行文本形式的远程存取,数据种类单一,处理效率也没有严格的质量保证。
技术实现思路
本专利技术所要解决的技术问题是针对上述
技术介绍
的不足,提供了。通过分布式块文件系统BDFS对空间数据数据进行矩阵化划分与集中式存取,结合MapReduce模式的不同处理阶段,有效降低网络数据传输代价。在与现有的空间数据库系统进行有机结合后,不仅可以对任意子数据库所支持的数据类型进行处理,又可以直接利用子数据库中已存在的特定算法,保证了数据查询的效率与质量。 本专利技术为实现上述专利技术目的采用如下技术方案:一种面向分布式环境的空间数据复合处理系统,包括主计算机及其主空间数据库MSDB(Master Spatial Database)模块、子计算机及其子空间数据库SSDB (Slave SpatialDatabase)模块、Hadoop并行处理平台模块、分布式块文件系统BDFS (Block-basedDistribute File System),在基于Hadoop平行处理平台上进行部署而形成的计算机网络集群,其中,主空间数据库模块以及子空间数据库模块通过分布式块文件系统交互,同时在客户端提供交互式文字和图形界面,用于添加、删除、更新与查询各类空间数据;所述的子空间数据库模块处理本地接收到的各类局部空间查询任务,负责从BDFS中读取所需要的数据信息,并添加新的数据以返回结果;数据在系统中以类型和数据块文件的形式分布保存在BDFS中,类型文件以文本形式描述空间数据概要,数据块文件以二进制形式保存数据的具体信息。 一种面向分布式环境的空间数据复合处理的方法,包括:步骤1,从主数据库中读取数据,并分布保存在BDFS中,方法如下:步骤1-1,对于给定的各类数据按照不同的数据属性(如时间属性、空间属性等)进行矩阵化划分,具体方法如下:步骤1-1-1,系统数据作为关系数据库表进行表示,依据用户自定义的最多两种不同的数据属性(如时间属性、空间属性等),按行划分;步骤1-1-2,按照第一种数据属性,将数据划分为若干矩阵行,并可继续按照第二种数据属性,将数据再进一步划分为若干矩阵列;步骤1-1-3,矩阵中的每一单元格部分保存为一个独立的数据块文件,每一行所有的数据块文件共享一个类型文件,并保存在相同子计算机的BDFS模块中;步骤1-2,数据的元数据信息以文本形式写入一个类型文件,每一部分数据的具体信息以二进制形式写入一个数据块文件,文件均采用冗余保存的形式存储在若干部署有BDFS系统的子计算机中,以提高系统的容错能力,划分后的位置元数据信息则保存在主数据库中,以备后续查询任务调用;步骤2,主数据库模块接收分布式并行查询,读取相关数据的分布位置信息后,通过系统命令的方式提交给Hadoop平台;步骤3,系统利用Hadoop平台以及数据的概要位置进行并行任务的分配,各子计算机待接收到相应的Map或Reduce任务后,则将具体数据库查询提交本地的子数据库模块进行处理,具体方法如下:步骤3-1 ,Hadoop平台将Map任务分配至按照矩阵化划分后的每一数据行,并将任务分配至保存有此行具体数据子计算机中,以便从本地读取所需数据;步骤3-1-1,本地读取所需数据的类型文件信息,若与查询要求不符,则返回主数据库模块;步骤3-1-2,从本地计算机的BDFS模块读取需要的数据块文件,并利用本地的子数据库模块进行相应处理,返回结果待再划分后写入本地的BDFS模块;步骤3-2,Map阶段结束后,中间结果数据再按照矩阵化进行表示存储,数据保留初始第一种数据分布属性,但根据具体查询的不同,将返回依照其它划分属性分割为若干列; 步骤3-3, Hadoop平台将Reduce任务分配至中间结果矩阵的每一列,并任意分配至当前可用的子计算机中进行执行,具体方法如下:步骤3-3-1,远程读取所需数据的类型文件信息,若与查询要求不符,则返回主数据库模块;步骤3-3-2,从BDFS中读取所有需要的数据块文件(含本地与其它计算机),并利用本地的子数据库模块进行相应处理,返回结果写入本地的BDFS模块中;步骤4,将查询结果的位置信息写入HDFS,并返回主数据库,以备下一阶段任务调用。 本专利技术采本文档来自技高网
...

【技术保护点】
一种面向分布式环境的空间数据复合处理系统,其特征在于,包括主计算机及其主空间数据库MSDB(Master Spatial Database)模块、子计算机及其子空间数据库SSDB(Slave Spatial Database)模块、Hadoop并行处理平台模块、分布式块文件系统BDFS(Block‑based Distribute File System),在基于Hadoop平行处理平台上进行部署而形成的计算机网络集群,其中,主空间数据库模块以及子空间数据库模块通过分布式块文件系统交互,同时在客户端提供交互式文字和图形界面,用于添加、删除、更新与查询各类空间数据;所述的子空间数据库模块处理本地接收到的各类局部空间查询任务,负责从BDFS中读取所需要的数据信息,并添加新的数据以返回结果;数据在系统中以类型和数据块文件的形式分布保存在BDFS中,类型文件以文本形式描述空间数据概要,数据块文件以二进制形式保存数据的具体信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:陆佳民冯钧
申请(专利权)人:河海大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1