【技术实现步骤摘要】
基于时空分区和交叉编码的快速时空关系连接查询方法
[0001]本专利技术涉及数据挖掘
,具体为基于时空分区和交叉编码的快速时空关系连接查询方法
。
技术介绍
[0002]随着时空轨迹类数据的累积和应用的深入,目前对时空轨迹类数据的挖掘应用,尤其不同对象间同时空出现,轨迹伴随等方面的应用需求强烈
。Hive
自
2.2.0
版本起增加了对复杂表达式连接查询的支持,对大量的时空类数据的挖掘分析提供了又一选项
。Hive
是一款基于
Hadoop
生态,依赖
HDFS、Yarn、MapReduce、TEZ、Spark
等框架引擎的分布式数据仓库
。
其通过类
SQL
语言对数据仓库数据进行查询访问,查询过程被划分为
Map、Reduce
等子过程
。
[0003]在
Hive
下进行两表和多表的连接查询过程中通常需要耗费大量的存储和计算资源,尤其在进行复杂表达式连接查询时,由于连接条件需要实时计算,导致连接查询过程中集群资源得不到有效利用,使得连接查询需要耗费大量的时间
。
[0004]现有技术中,时空类数据与大数据融合仍在不断深入和加速,各类优化算法层出不穷,时空轨迹的匹配
、
快速查找等方面有着广阔的应用场景
。
因此,研究时空轨迹类数据的快速查询非常重要,值得深究
。
目前,针对存在 ...
【技术保护点】
【技术特征摘要】
1.
一种基于时空分区和交叉编码的快速时空关系连接查询方法,其特征在于:包括以下步骤:
S1、
数据及环境准备:选取时空轨迹类数据样本,之后按照采集时间对应的日期
dp
进行分区存储,一共包括对象编号
、
经度
、
纬度和采集时间等字段,之后将采集到的数据样本进行治理存储,得到标记数据样本;
S2、
数据预处理:将
S1
步骤中的标记数据样本按如下步骤进行处理:
a.
填充日期分区间隙,将当前日期分区前一天最后一个
Δ
t
以及后一天的第一个
Δ
t
插入当前日期分区,填补每个日期分区连接计算存在的缝隙问题;
b.
位置网格化及分区,通过
Geohash
编码生成位置网格编码
c
,并根据网格编码
c
计算网格区域编码
cp
,作为二级分区字段;
c.
对每条记录的采集时间进行编码,生成3个时间编码字段和3个扩展时间编码字段;
d.
处理好之后按照时空两级分区进行储存,得到预处理数据样本,表名:
t_ost_cc
;
S3、
两表连接查询策略:设定两表连接查询步骤,根据
S2
步骤中的预处理数据样本进行两表连接查询,两表连接查询步骤其具体步骤为:
a.
通过
Java
等编程语言开发工具,生成
SQL
,循环提交每个日期分区对应的数据进行连接查询;
b.
每次只进行一个日期分区数据的连接查询,每次连接查询首先判断空间网格区域分区是否相同,再比较空间网格是否相等,然后比较时间段编码以及扩展是否符合条件;
S4、
结束:通过
S3
步骤操作完成数据连接查询
。2.
根据权利要求1所述的基于时空分区和交叉编码的快速时空关系连接查询方法,其特征在于:所述
S2
步骤中采用
Geohash
对所有位置经度和纬度进行空间位置编码
。3.
根据权利要求1所述的基于时空分区和交叉编码的快速时空关系连接查询方法,其特征在于:
S2
步骤中治理存储的方式为:
i、
仅以日期为分区存储,未进行其它优化,类似建立一级索引的连接查询;
ii、
以日期为分区和空间网格区域分区存储数据,类似建立二级索引的连接查询;
iii、
增加时间交叉编码相关字段,再以天和空间网格区域码二重分区存储数据,通过时间交叉编码字段,避免了连接查询条件实时计算,避免
MapReduce、TEZ
等引擎优化功能失效,可建立类似三级索引的连接查询
。4.
根据权利要求1所述的基于时空分区和交叉编码的快速时空关系连接查询方法,其特征在于:所述
S2
步骤日期分区间隙填充方式为:每次只取一个日期分区的数据进行连接查询,将前一日期分区最后一个
Δ
t
以及后一日期分区的第一个
Δ...
【专利技术属性】
技术研发人员:丁强龙,袁弘强,李志新,舒晓建,何济宏,潘奇,陈伟,郑涛,
申请(专利权)人:昆明市公安局,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。