当前位置: 首页 > 专利查询>济南大学专利>正文

面向时空数据k近邻查询的分布式计算平台及查询方法技术

技术编号:13585238 阅读:57 留言:0更新日期:2016-08-24 15:27
本发明专利技术公开了一种面向时空数据k近邻查询的分布式计算平台及查询方法,该平台包括全局索引数据管理模块,其与数据接入分发模块、时空数据索引模块和查询并行处理模块进行交互数据,用来支撑分布式动态两级索引结构;数据接入分发模块,其用于实时接入连续到达的时空数据和时空数据查询,根据分布式动态两级索引结构将时空数据和时空数据查询分别分发至时空数据索引模块和查询并行处理模块;时空数据索引模块,其对相应查询区域内的时空数据建立索引,实时更新时空数据的位置信息,并将更新的时空数据位置信息实时发送至查询并行处理模块;查询并行处理模块,其根据更新的时空数据位置信息,并行处理接收的时空数据查询,输出时空数据查询结果。

【技术实现步骤摘要】

本专利技术涉及时空数据查询技术,属于计算机应用领域,尤其涉及一种面向时空数据k近邻查询的分布式计算平台及查询方法
技术介绍
时空数据(Spatial-Temporal Data)是指具有空间和时间维度的一类数据,它通常用来描述某一对象的空间信息随时间的变化状态。近年来,随着各类移动设备(如手机、GPS设备)、无线传感器和电子监控设备的大规模应用以及移动互联网的迅猛发展,社会生活中许多基于位置服务的应用正在快速地产生大量的时空数据,而时空数据查询也在智能交通、电子商务、社交网络等领域产生越来越重要的影响。近年来,时空数据查询受到国内外学者的广泛关注,尤其是大数据背景下的海量时空数据查询成为一个新兴的研究热点。当前许多领域的时空数据规模呈“爆炸”式增长,传统的单机计算模式受到计算和存储能力的限制,已经难以应对大规模时空数据以及时空数据上的并发查询。目前,国内外学者在时空数据查询领域已经做了很多工作,但是对于分布式环境下的海量时空数据k近邻查询的研究还处于起步阶段,该问题仍然面临巨大的挑战。具体表现如下:(1)缺乏能够支持海量时空数据大规模并发k近邻查询的分布式计算平台。(2)缺乏支持海量时空数据频繁更新和并行k近邻查询算法的分布式索引结构,导致对海量时空数据分布式存储和维护的支持性较差。(3)现有的时空数据查询方法大多数都是基于单机计算环境的集中式处理方法,难以直接部署到分布式计算平台之上,缺乏有效的分布式k近邻查询方法。
技术实现思路
本专利技术的目的就是为了解决上述问题,提供一种面向时空数据k近邻查询的分布式计算平台及查询方法。本专利技术具有既能够对持续变化的海量时空数据进行实时存储和维护,又能够对大规模并发k近邻查询进行实时响应的优点。为了实现上述目的,本专利技术采用如下技术方案:一种面向时空数据k近邻查询的分布式计算平台,包括:数据接入分发模块,其用于实时接入连续到达的时空数据和时空数据查询,根据分布式动态两级索引结构DTLI将时空数据和时空数据查询分别分发至数据缓存模块;分布式动态两级索引结构DTLI包括第一级条状索引和基于条状索引的第二级网格索引,
所述第一级条状索引由对时空数据沿x轴方向进行划分而构成;所述第二级网格索引是对每一个条状索引的时空数据沿y轴进行划分而构成;数据缓存模块,其用来缓存数据接入分发模块发送的时空数据和时空数据查询;时空数据索引模块对各个条状索引区域内的时空数据分别建立索引,并对索引数据进行实时更新;所述时空数据索引模块还实时监听所述数据缓存模块到达的时空数据和时空数据查询,然后获取自身应处理的时空数据和查询;全局索引数据管理模块,维护一份分布式动态两级索引结构的条状索引的边界信息作为全局索引数据,并与数据接入分发模块、时空数据索引模块和查询并行处理模块进行索引数据交互;查询并行处理模块,对时空数据k近邻查询进行分布式处理。所述数据接入分发模块,由若干个分布在不同物理计算节点上的数据接入算子组成,每个数据接入算子为一个逻辑计算单元。所述时空数据索引模块,由若干个分布在不同物理计算节点上的数据索引算子组成,每个数据接入算子为一个逻辑计算单元。所述查询并行处理模块,由若干个分布在不同物理计算节点上的数据查询算子组成,每个数据查询算子为一个逻辑计算单元。所述各个算子之间通过发送和接收事件的形式来实现数据交互。所述事件是一个<key,value>数据对,每个算子将根据事件的名称和key值指定其所接受的事件。一种基于分布式计算平台的时空数据分布式k近邻查询方法,包括以下步骤:步骤(1):构建上述海量时空数据k近邻查询的分布式计算平台;步骤(2):在分布式计算平台上部署分布式动态两级索引结构DTLI;步骤(3):基于分布式动态两级索引结构DTLI,对连续到达的海量时空数据进行处理;步骤(4):基于DTLI索引结构,将时空数据分布式k近邻查询算法,即PSK算法部署到分布式计算平台上,实现PSK算法的并行化,进而实现对海量时空数据k近邻查询的并行处理。所述步骤(2)的具体过程,包括:步骤(2.1):数据接入分发模块中的每一个数据接入算子维护一份DTLI的条状索引的边界信息,全局索引数据管理模块也维护一份DTLI的条状索引的边界信息,但并不记录任何时空数据的位置信息;步骤(2.2):时空数据索引模块中的每个数据索引算子负责维护一个条状索引,并对该条状索引内的时空数据进行存储和更新;每个数据索引算子在自身维护的条状索引之上构建第二级网格索引,从而实现将分布式动态两级索引结构部署在分布式计算平台上。在所述步骤(2.2)中,若出现时空数据索引模块中的数据索引算子负责维护的一个条状索引发生分裂或者合并,该数据索引算子实时地将发生变化的条状索引的边界信息写入到全局索引数据管理模块。数据接入分发模块中的数据接入算子通过“监听”操作启动一个监听进程对全局索引数据管理模块的数据进行持续监听。当监听进程一旦发现全局索引数据管理模块的条状索引发生了变化,数据接入算子则实时地获取全局索引数据管理模块更新的条状索引来覆盖本地的条状索引对应的部分。所述步骤(3)的具体过程,包括:步骤(3.1):数据接入分发模块中的每一个数据接入算子并行地接入到达的时空数据,并根据DTLI的条状索引为时空数据分配相应的数据索引算子。步骤(3.2):数据接入分发模块中的数据接入算子将时空数据发送至数据缓存模块,数据索引模块中的每个数据索引算子持续监听数据缓存模块中到达的时空数据,并从数据缓存模块中实时获取自身应处理的时空数据。在所述步骤(4)中,采用PSK算法并行处理时空数据k近邻查询。其中,本专利技术的时空数据是指二维平面空间内的移动对象(如人、车),这些移动对象的位置连续变化,并频繁地向数据中心报告自己的位置坐标。本专利技术的有益效果:(1)本专利技术采用的面向海量时空数据k近邻查询的分布式计算平台具备全局索引数据管理模块和数据缓存模块,能够很好地支撑本专利技术所提出的分布式动态两级索引结构,满足时空数据k近邻查询对于全局索引数据的分布式访问需求,避免不同算子在处理时空数据k近邻查询时出现数据错发问题,为海量时空数据大规模并发k近邻查询提供了通用的分布式计算平台;(2)本专利技术所提出的分布式动态两级索引结构能够对持续变化的海量时空数据进行实时存储和维护;此外,该索引结构具备良好的可扩展性,在分布式环境下,仅通过增加硬件资源就可以实现索引结构时空数据处理能力的线性增长;最后,该索引结构能够很好地支持PSK查询算法,在很大程度上加速了PSK查询算法的收敛;(3)本专利技术利用PSK算法来实现对时空数据上的k近邻查询的实时处理,减少了分布
式环境下处理时空数据k近邻查询所产生的物理计算节点之间的通信代价,能够对大规模并发k近邻查询进行实时响应,查询效率显著提高。附图说明图1为海量时空数据分布式动态两级索引结构(DTLI)示意图;图2为DTLI条状索引分裂示意图;图3为海量时空数据查询的分布式计算平台架构图;图4为PSK算法演示图;图5为基于分布式动态两级索引结构处理时空数据Oi流程图;图6为PSK算法并行化架构图。具体实施方式在本专利技术中,面向海量时空数据k近邻查询的分布式计算平台、分布式动态两级索引结构和支持海量时空数据分布式本文档来自技高网
...

【技术保护点】
一种面向时空数据k近邻查询的分布式计算平台,其特征在于,包括:数据接入分发模块,其用于实时接入连续到达的时空数据和时空数据查询,根据分布式动态两级索引结构将时空数据和时空数据查询分别分发至数据缓存模块;分布式动态两级索引结构包括第一级条状索引和基于条状索引的第二级网格索引,所述第一级条状索引由对时空数据沿x轴方向进行划分而构成;所述第二级网格索引是对每一个条状索引的时空数据沿y轴进行划分而构成;数据缓存模块,其用来缓存数据接入分发模块发送的时空数据和时空数据查询;时空数据索引模块对各个条状索引区域内的时空数据分别建立索引,并实时更新时空数据的位置信息;所述时空数据索引模块还实时监听所述数据缓存模块到达的时空数据和时空数据查询,然后获取自身处理的时空数据和查询;全局索引数据管理模块,维护一份分布式动态两级索引结构的条状索引的边界信息作为全局索引数据,并与数据接入分发模块、时空数据索引模块和查询并行处理模块进行索引数据交互;查询并行处理模块,对时空数据k近邻查询请求进行分布式处理。

【技术特征摘要】
1.一种面向时空数据k近邻查询的分布式计算平台,其特征在于,包括:数据接入分发模块,其用于实时接入连续到达的时空数据和时空数据查询,根据分布式动态两级索引结构将时空数据和时空数据查询分别分发至数据缓存模块;分布式动态两级索引结构包括第一级条状索引和基于条状索引的第二级网格索引,所述第一级条状索引由对时空数据沿x轴方向进行划分而构成;所述第二级网格索引是对每一个条状索引的时空数据沿y轴进行划分而构成;数据缓存模块,其用来缓存数据接入分发模块发送的时空数据和时空数据查询;时空数据索引模块对各个条状索引区域内的时空数据分别建立索引,并实时更新时空数据的位置信息;所述时空数据索引模块还实时监听所述数据缓存模块到达的时空数据和时空数据查询,然后获取自身处理的时空数据和查询;全局索引数据管理模块,维护一份分布式动态两级索引结构的条状索引的边界信息作为全局索引数据,并与数据接入分发模块、时空数据索引模块和查询并行处理模块进行索引数据交互;查询并行处理模块,对时空数据k近邻查询请求进行分布式处理。2.如权利要求1所述的一种面向时空数据k近邻查询的分布式计算平台,其特征在于,所述数据接入分发模块,由若干个分布在不同物理计算节点上的数据接入算子组成,每个数据接入算子为一个逻辑计算单元。3.如权利要求1所述的一种面向时空数据k近邻查询的分布式计算平台,其特征在于,所述时空数据索引模块,由若干个分布在不同物理计算节点上的数据索引算子组成,每个数据接入算子为一个逻辑计算单元。4.如权利要求1所述的一种面向时空数据k近邻查询的分布式计算平台,其特征在于,所述查询并行处理模块,由若干个分布在不同物理计算节点上的数据查询算子组成,每个数据查询算子为一个逻辑计算单元。5.如权利要求4所述的一种面向时空数据k近邻查询的分布式计算平台,其特征在于,所述算子之间通过发送和接收事件的形式来实现数据交互。6.如权利要求5所述的一种面向时空数据k近邻查询的分布式计算平台,其特征在于,所述事件是一个<key,v...

【专利技术属性】
技术研发人员:于自强王栋韩士元陈月辉马坤
申请(专利权)人:济南大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1