一种超大规模数据的时序检索索引系统及方法技术方案

技术编号:15542715 阅读:71 留言:0更新日期:2017-06-05 11:32
本发明专利技术公开了一种超大规模数据的时序检索索引系统及方法,该系统包括垂直层级索引模块,包括有多层索引,每层索引均包括哈希函数和多个数据集,所述数据集中数据通过下一层级索引哈希函数映射至下一层级数据集中;还包括有对应的时间轴索引模块,用于建立事件列表和时间列表。本发明专利技术通过层级索引模块将原始的大数据集经过层层的哈希映射,最终会被分配到若干个相对较小的数据集中去,使每一个小数据集上可以独立执行查询处理、数据加载、存储优化等操作,从而结合时间轴索引模块避免了时序检索操作的过程中进行全表扫描操作的风险,极大地提高了时序检索的速度。本发明专利技术作为一种超大规模数据的时序检索索引系统及方法可广泛应用于数据处理领域。

Large scale data timing indexing index system and method

The present invention discloses a kind of timing large scale data retrieval index system and method, the system includes a hierarchical indexing module, including a multilayer index, each layer of the index includes the Hashi function and the multiple data sets, data set by a hierarchical index Hashi mapping function to the next level of data in the data set also; including the corresponding time axis indexing module, for the establishment of a list of events and time list. The present invention through hierarchical indexing module large data set after the original hash mapping layer, will eventually be assigned to a number of relatively small data set, which can independently execute the query processing, data loading, storage optimization operations of each small data set, which combined with the time axis indexing module to avoid the risk a full table scan operation procedure of sequential retrieval operation, greatly improve the retrieval speed of timing. The invention is a large scale data timing retrieval index system and method, and can be widely applied to the data processing field.

【技术实现步骤摘要】
一种超大规模数据的时序检索索引系统及方法
本专利技术涉及数据处理领域,尤其是一种超大规模数据的时序检索索引系统及方法。
技术介绍
时序数据库的时序数据管理领域也涉及了对数据库中的数据的时序检索操作。时序数据库内部也是通过对时序数据建立数据索引从而高效地实现各种时序数据管理的功能。总的来说,时序数据库中的这些数据索引主要分成两大类,一类是基于B+树结构的索引,另外一类是基于R树的结构的索引。比如TimeIndex,SnapshotIndex,CheckpointIndex,ArchivableTimeIndex,OverlappingB+树等等几类比较具体的索引结构。TimelineIndex是由MartinKaufman等人在2013年提出的一种索引结构,它主要服务于时序数据库里的时序数据管理,能够极大地提升时序数据库各种时序检索的效率。如图1所示为时序数据库中数据格式,参数Start和End表示数据记录的有效时间的起止点,参数Name和Balance分别表示姓名和账目。如图2所示,TimelineIndex主要由图中左边的VersionMap和图中右边的EventList两个部分组成。图1中的每条数据记录可以拆分为两个事件:在Start时刻记录被激活;在End时刻记录被撤销。EventList记录了所有的被激活和被撤销的事件(1为激活,0为撤销)。而VersionMap记录了所有事件发生的顺序。通过对这两个列表的操作,TimelineIndex能够实现高效的时序检索性能。对于每张数据表,都需要建立一个对应的TimelineIndex。Timelineindex比原始的数据表要小很多,尤其是当原始数据表具有很多列属性的时候。上述提到了各种时序数据库的时序索引都能够有效地解决时序数据库中的各种时序数据管理的问题,但是,它们有个共同的特点是它们都是为传统的关系型时序数据库而设计的,它们所面向处理的是常规规模的数据量,通常为几百万级别的数据,它们无法应对当前大数据时代10亿以上级别的超大规模数据所带来的技术挑战。当待处理的数据集的数据总量越来越大,上述的时序数据库的时序索引就会出现严重的性能和效率问题,导致无法在可接受的时间内返回有效的时序检索的结果。术语解释标准化时序数据:R=(ID,A,T,(S,E))是一条标准化时序数据;其中ID表示记录R在数据表中的行号,A表示时序数据本身的静态属性,T表示时序数据的时间点属性,(S,E)表示时序数据的真实有效时间范围[Start,End)。静态属性:静态属性是指在时序数据中所有与时间无关的属性。时序检索:在原始标准化时序数据集中检索满足特定时间约束的数据记录。时序检索主要包含三类:基于时间点条件的检索操作,基于时间段包含关系条件的检索操作和基于时间段相交关系条件的检索操作。基于时间点条件的检索操作:给定具体的时间点M,找出全集U中的最大子集合D,使得D满足,且基于时间段包含关系条件的检索操作:给定具体的时间范围[Start,End),找出全集U中的最大子集合D,使得D满足,且基于时间段相交关系条件的检索操作:给定具体的时间范围[Start,End)。R=(ID,A,T,(S,E))是一条标准化时序数据。设L(R)=Max(Start,S),V(R)=Min(End,E)。找出全集U中的最大子集合D,使得D满足,且满足L(R)≤V(R)。
技术实现思路
为了解决上述技术问题,本专利技术的目的是:提供一种用于超大规模数据可实现高效返回有效时序检索结果的索引系统。为了解决上述技术问题,本专利技术的另一目的是:提供一种用于超大规模数据可实现高效返回有效时序检索结果的索引方法。本专利技术所采用的技术方案是:一种超大规模数据的时序检索索引系统,包括有垂直层级索引模块,包括有多层索引,每层索引均包括有哈希函数和多个数据集,所述原始数据通过第一层级索引的哈希函数映射至数据集中,所述数据集中数据通过下一层级索引的哈希函数映射至下一层级的数据集中;时间轴索引模块,用于对最下层级索引中数据集的数据建立事件列表和时间列表;所述事件列表用于记录数据对应的事件在某个定点时间的激活状态,所述时间列表用于记录在某个定点时间之前的所发生的事件的总数。进一步,所述垂直层级索引模块包括有三层索引。进一步,所述多层索引中,最下层级索引用于存储热点查询信息,其余层级索引只存储映射关系数据。进一步,所述热点查询信息包括有用户ID、时间属性、时间范围属性。进一步,所述垂直层级索引模块还用于在原始数据的时间范围属性大于最下层级索引中时间范围属性时,将原始数据映射至其对应的所有数据集中。进一步,所述时间轴索引模块用于将每一个层级索引中数据集中数据拆分为两个事件,分别用激活时间和撤销时间表示,并根据时间先后进行排序形成事件列表。进一步,所述时间轴索引模块还用于记录在某个定点时间T之前的所发生的事件的总数,所述定点时间T的取值的间隔时间固定。本专利技术所采用的另一技术方案是:一种应用上述超大规模数据的时序检索索引系统的索引方法,根据时间的有效时间起止点,从垂直层级索引模块中的数据集检索所需的信息,并返回所有检索到的数据集中的信息。本专利技术的有益效果是:本专利技术系统通过设置层级索引模块和时间轴索引模块,将原始的大数据集经过层层的哈希映射,最终会被分配到若干个相对较小的数据集中去,使每一个小数据集上可以独立执行查询处理、数据加载、存储优化等操作,从而结合时间轴索引模块避免了时序检索操作的过程中进行全表扫描操作的风险,极大地提高了时序检索的速度。本专利技术的有益效果是:由于层级索引模块和时间轴索引模块将原始的大数据集经过层层的哈希映射,最终会被分配到若干个相对较小的数据集中去,使每一个小数据集上可以独立执行查询处理、数据加载、存储优化等操作,从而结合时间轴索引模块使本专利技术方法避免了时序检索操作的过程中进行全表扫描操作的风险,极大地提高了时序检索的速度。附图说明图1为时序数据库追踪的数据格式示例;图2为图1中数据对应的TimelineIndex结构图;图3为本专利技术系统的结构示意图;图4为一对多映射关系示例;图5为时间轴索引模块示例。具体实施方式下面结合附图对本专利技术的具体实施方式作进一步说明:参照图1,一种超大规模数据的时序检索索引系统,包括有:垂直层级索引模块,包括有多层索引,每层索引均包括有哈希函数和多个数据集,所述原始数据通过第一层级索引的哈希函数映射至数据集中,所述数据集中数据通过下一层级索引的哈希函数映射至下一层级的数据集中;时间轴索引模块,用于对最下层级索引中数据集的数据建立事件列表和时间列表;所述事件列表用于记录数据对应的事件在某个定点时间的激活状态,所述时间列表用于记录在某个定点时间之前的所发生的事件的总数。进一步作为优选的实施方式,如图3所示的垂直层级索引模块包括有三层索引,图中每一个层级索引均包括有哈希函数和多个数据集,其中每一个数据集又对应一个下一层级的索引。垂直层级索引建立的目的在于把大数据变小。每一个层级索引都包括一个哈希函数映射,这个哈希函数的实现具体取决于数据的属性以及查询的需求。原始的大数据集经过层层的哈希映射,最终会被分配到若干个相对较小的数据集中去。在每一个小数据集上,可以独立执行查询处理、数据加载、存储优化本文档来自技高网
...
一种超大规模数据的时序检索索引系统及方法

【技术保护点】
一种超大规模数据的时序检索索引系统,其特征在于:包括有垂直层级索引模块,包括有多层索引,每层索引均包括有哈希函数和多个数据集,所述原始数据通过第一层级索引的哈希函数映射至数据集中,所述数据集中数据通过下一层级索引的哈希函数映射至下一层级的数据集中;时间轴索引模块,用于对最下层级索引中数据集的数据建立事件列表和时间列表;所述事件列表用于记录数据对应的事件在某个定点时间的激活状态,所述时间列表用于记录在某个定点时间之前的所发生的事件的总数。

【技术特征摘要】
1.一种超大规模数据的时序检索索引系统,其特征在于:包括有垂直层级索引模块,包括有多层索引,每层索引均包括有哈希函数和多个数据集,所述原始数据通过第一层级索引的哈希函数映射至数据集中,所述数据集中数据通过下一层级索引的哈希函数映射至下一层级的数据集中;时间轴索引模块,用于对最下层级索引中数据集的数据建立事件列表和时间列表;所述事件列表用于记录数据对应的事件在某个定点时间的激活状态,所述时间列表用于记录在某个定点时间之前的所发生的事件的总数。2.根据权利要求1所述的一种超大规模数据的时序检索索引系统,其特征在于:所述垂直层级索引模块包括有三层索引。3.根据权利要求1所述的一种超大规模数据的时序检索索引系统,其特征在于:所述多层索引中,最下层级索引用于存储热点查询信息,其余层级索引只存储映射关系数据。4.根据权利要求3所述的一种超大规模数据的时序检索索引系统,其特征在于:所述热点查询信息包括...

【专利技术属性】
技术研发人员:赵淦森李振宇王欣明张海明庄序填唐华李卓越林成创刘创辉马朝辉廖智锐
申请(专利权)人:华南师范大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1