一种超大规模数据的时序检索索引系统及方法技术方案

技术编号：15542715 阅读：71 留言：0更新日期：2017-06-05 11:32

本发明专利技术公开了一种超大规模数据的时序检索索引系统及方法，该系统包括垂直层级索引模块，包括有多层索引，每层索引均包括哈希函数和多个数据集，所述数据集中数据通过下一层级索引哈希函数映射至下一层级数据集中；还包括有对应的时间轴索引模块，用于建立事件列表和时间列表。本发明专利技术通过层级索引模块将原始的大数据集经过层层的哈希映射，最终会被分配到若干个相对较小的数据集中去，使每一个小数据集上可以独立执行查询处理、数据加载、存储优化等操作，从而结合时间轴索引模块避免了时序检索操作的过程中进行全表扫描操作的风险，极大地提高了时序检索的速度。本发明专利技术作为一种超大规模数据的时序检索索引系统及方法可广泛应用于数据处理领域。

Large scale data timing indexing index system and method

The present invention discloses a kind of timing large scale data retrieval index system and method, the system includes a hierarchical indexing module, including a multilayer index, each layer of the index includes the Hashi function and the multiple data sets, data set by a hierarchical index Hashi mapping function to the next level of data in the data set also; including the corresponding time axis indexing module, for the establishment of a list of events and time list. The present invention through hierarchical indexing module large data set after the original hash mapping layer, will eventually be assigned to a number of relatively small data set, which can independently execute the query processing, data loading, storage optimization operations of each small data set, which combined with the time axis indexing module to avoid the risk a full table scan operation procedure of sequential retrieval operation, greatly improve the retrieval speed of timing. The invention is a large scale data timing retrieval index system and method, and can be widely applied to the data processing field.

全部详细技术资料下载

【技术实现步骤摘要】
一种超大规模数据的时序检索索引系统及方法
本专利技术涉及数据处理领域，尤其是一种超大规模数据的时序检索索引系统及方法。
技术介绍
时序数据库的时序数据管理领域也涉及了对数据库中的数据的时序检索操作。时序数据库内部也是通过对时序数据建立数据索引从而高效地实现各种时序数据管理的功能。总的来说，时序数据库中的这些数据索引主要分成两大类，一类是基于B+树结构的索引，另外一类是基于R树的结构的索引。比如TimeIndex,SnapshotIndex,CheckpointIndex,ArchivableTimeIndex,OverlappingB+树等等几类比较具体的索引结构。TimelineIndex是由MartinKaufman等人在2013年提出的一种索引结构，它主要服务于时序数据库里的时序数据管理，能够极大地提升时序数据库各种时序检索的效率。如图1所示为时序数据库中数据格式，参数Start和End表示数据记录的有效时间的起止点，参数Name和Balance分别表示姓名和账目。如图2所示，TimelineIndex主要由图中左边的VersionMap和图中右边的EventList两个部分组成。图1中的每条数据记录可以拆分为两个事件：在Start时刻记录被激活；在End时刻记录被撤销。EventList记录了所有的被激活和被撤销的事件(1为激活，0为撤销)。而VersionMap记录了所有事件发生的顺序。通过对这两个列表的操作，TimelineIndex能够实现高效的时序检索性能。对于每张数据表，都需要建立一个对应的TimelineIndex。Timelinein...
一种超大规模数据的时序检索索引系统及方法

【技术保护点】
一种超大规模数据的时序检索索引系统，其特征在于：包括有垂直层级索引模块，包括有多层索引，每层索引均包括有哈希函数和多个数据集，所述原始数据通过第一层级索引的哈希函数映射至数据集中，所述数据集中数据通过下一层级索引的哈希函数映射至下一层级的数据集中；时间轴索引模块，用于对最下层级索引中数据集的数据建立事件列表和时间列表；所述事件列表用于记录数据对应的事件在某个定点时间的激活状态，所述时间列表用于记录在某个定点时间之前的所发生的事件的总数。

【技术特征摘要】
1.一种超大规模数据的时序检索索引系统，其特征在于：包括有垂直层级索引模块，包括有多层索引，每层索引均包括有哈希函数和多个数据集，所述原始数据通过第一层级索引的哈希函数映射至数据集中，所述数据集中数据通过下一层级索引的哈希函数映射至下一层级的数据集中；时间轴索引模块，用于对最下层级索引中数据集的数据建立事件列表和时间列表；所述事件列表用于记录数据对应的事件在某个定点时间的激活状态，所述时间列表用于记录在某个定点时间之前的所发生的事件的总数。2.根据权利要求1所述的一种超大规模数据的时序检索索引系统，其特征在于：所述垂直层级索引模块包括有三层索引。3.根据权利要求1所述的一种超大规模数据的时序检索索引系统，其特征在于：所述多层索引中，最下层级索引用于存储热点查询信息，其余层级索引只存储映射关系数据。4.根据权利要求3所述的一种超大规模数据的时序检索索引系统，其特征在于：所述热点查询信息包括...

【专利技术属性】
技术研发人员：赵淦森，李振宇，王欣明，张海明，庄序填，唐华，李卓越，林成创，刘创辉，马朝辉，廖智锐，
申请(专利权)人：华南师范大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人