基于Hbase散列概要森林对时序数据进行索引的方法技术

技术编号：15895331 阅读：37 留言：0更新日期：2017-07-28 19:49

本发明专利技术公开了一种基于Hbase散列概要森林对时序数据进行索引的方法，包括以下步骤：(1)根据时间粒度建立每棵时间单元树；(2)求取每棵时间单元树的散列码，并将带有散列码的时间单元树组成基于Hbase的散列概要森林；(3)将采集的时序数据根据散列码插入到散列概要森林中；(4)根据时间范围查询读取存储的时序数据。本发明专利技术通过结合概要森林树形索引方案，提高时序数据聚合操作的查询速度，同时通过生成散列码为单元树提供散列索引，解决Hbase分布式存储时序数据产生热点问题。

Method for indexing temporal data based on Hbase hash outline forest

The invention discloses a method for Hbase hash indexing of forest profile based on the time series data, which comprises the following steps: (1) establish every time unit tree according to the time granularity; (2) for the hash code from each time unit tree tree, and the tree with a time unit composed of hash code hash summary forest Hbase based on; (3) the collected time series data according to the hash code inserted into the hash summary in the forest; (4) according to the timing time range query to read the stored data. The present invention by combining the summary of forest tree index scheme, improve the query speed of sequential data aggregation operation, at the same time by generating a hash code for the unit to provide tree hash indexes, solve the hot issues of Hbase distributed storage data.

全部详细技术资料下载

【技术实现步骤摘要】
基于Hbase散列概要森林对时序数据进行索引的方法
本专利技术涉及存储
，具体涉及一种基于Hbase散列概要森林对时序数据进行索引的方法。
技术介绍
时序数据为以时间序列索引的连续数据，随着计算机应用的普及，时序数据在各个领域也得到了广泛的应用。例如：随着金融领域与互联网的结合越来越紧密，金融领域大量的量化回撤操作对时序数据的聚合操作性能需求越来越大。例如：对期货中一个季度时间范围内的某种商品合约的市价、盘口价格或成交量等进行统计，进行求和或计算最大值等聚合操作。这样的应用场景在金融量化中出现频繁，并且由于数据量巨大，如何快速准确地计算t1～t2时间内的金融时序数据的聚合操作结果变得十分重要。以对Au金属期货交易数据中一定时间范围内市价的求和操作为例：SelectSUM(LastPrice)From‘Au’WHEREtime>t1ANDtime<t2在这样的应用场景下，必须支持在海量的时序数据中快速取得聚合操作结果。传统关系型数据库主要采用物化视图或概要表的方式达到加速聚合查询的目的。物化视图是对涉及表连接的查询命令进行预处理，并将结果保存在视图...
基于Hbase散列概要森林对时序数据进行索引的方法

【技术保护点】
一种基于Hbase散列概要森林对时序数据进行索引的方法，包括以下步骤：(1)根据树高、叶子节点包含的时间范围建立包含固定时间粒度的每棵时间单元树；(2)求取每棵时间单元树的散列码，并将带有散列码的时间单元树组成基于Hbase的散列概要森林；(3)将采集的时序数据根据散列码插入到散列概要森林中；(4)根据时间范围查询读取存储的时序数据。

【技术特征摘要】
1.一种基于Hbase散列概要森林对时序数据进行索引的方法，包括以下步骤：(1)根据树高、叶子节点包含的时间范围建立包含固定时间粒度的每棵时间单元树；(2)求取每棵时间单元树的散列码，并将带有散列码的时间单元树组成基于Hbase的散列概要森林；(3)将采集的时序数据根据散列码插入到散列概要森林中；(4)根据时间范围查询读取存储的时序数据。2.根据权利要求1所述基于Hbase散列概要森林对时序数据进行索引的方法，其特征在于：每棵时间单元树是一棵线段树，线段树节点存储该节点范围的概要信息，包括：LBound、RBound、LNode、RNode以及Data；其中，LBound、RBound分别表示该节点包含时间范围的起始时间点和终止时间点；LNode、RNode分别表示该节点左孩子和右孩子节点包含时间范围的中点；Data表示该节点存放的概要数据值，此时建立的时间单元树的每个节点的Data是空的。3.根据权利要求2所述基于Hbase散列概要森林对时序数据进行索引的方法，其特征在于：每棵时间单元树的散列码Hash的求取公式为：Hash＝md5(treeInfo+treelowbound)treeinfo为数据标识简要信息；treelowbound为时间单元树的起始时间点；md5为一种转码方式。4.根据权利要求3所述基于Hbase散列概要森林对时序数据进行索引的方法，其特征在于：所述的基于Hbase的散列概要森林由tree-hash和tree-node两个Hbase表组成，其中，tree-hash表用于存储所有时间单元树对应的散列码，每个tree-node表存有对应时间单元树的所有树节点，且tree-hash表与tree-node表是单独存储，并且将拥有相同散列码的时间单元树载有的时序数据集中存储。5.根据权利要求4所述基于Hbase散列概要森林对时序数据进行索引的方法，其特征在于：将时序数据插入到散列概要森林的具体过程为：(3-1)通过时序数据的所属于的时间在tree-hash表中找到此时序数据所在的时间单元树的散列码；(3-2)找到该散列码所对应的tree-node表，将时序数据递归插入到此tree-node表中，具体过程为：根据散列码找到所处时间单元树的根节点开始递归，然后进行时序数据的时间点与当前查询节点的时间范围对比，当时序数据的时间点小于该节点的时间范围的中间时间点时，向该节点的左孩子节点的Data中递归插入时序数据，当时序数据的时间点大于该节点的时间范围的中间时间点时，则该节点的右孩子节点的Data中递归插入时序数据；直到插入到时间单元树的叶子节点为止。6.根据权利要求1所述基于Hbase散列概要...

【专利技术属性】
技术研发人员：尹建伟，冯诗淳，邓水光，李莹，吴健，吴朝晖，易峥，
申请(专利权)人：浙江大学，浙江核新同花顺网络信息股份有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人