The present invention provides a temporal data indexing method based on cluster memory calculation. The method uses a double-layer indexing method to partition the data, establish a lightweight index on the partition, and then establish the temporal index of the present invention on the Array data set inside the partition. In the process of partitioning, relevant optimization is carried out according to the establishment process of temporal index, which reduces the space consumption of index establishment within partition, speeds up the process of data set pruning, improves the efficiency of query, optimizes the establishment of temporal index and the cost of query. The invention can reduce the size of index space and optimize the problem of excessive storage space in the same kind of index while ensuring a certain query speed, reduce the delay of querying large temporal data and improve the overall throughput.
【技术实现步骤摘要】
基于内存计算的集群时态数据索引方法
本专利技术涉及一种基于内存计算的集群时态数据索引方法,属于云计算、时态大数据领域。
技术介绍
时态数据是一系列表示某个时间点状态的数据,描述了被测量的主体在历史的时间维度上的状态信息,如在水文监控、工厂的设备监控、通讯监控、金融行业指标数据等。及时对时序数据的有效分析,可以发现事物发展的历史性,规律性,并能指导着作出相应决策判断。面对当今海量数据中的时态数据(例如,一辆联网汽车每小时产生25G数据),如何有效的进行查询处理,仍是一大热点研究问题。近年来,数据库领域已经出现了一些针对时态数据高效率查询的索引结构,然而传统数据库为关系型数据库,无法高效的处理海量的非关系型数据,且支持容量有限、不易拓展等特性使其无法满足海量数据下的客户需求。现有的大数据、云计算等高新领域的崛起为高效处理海量的时态数据提供了可能。其中的集群计算成为了大数据领域内最流行的一种解决方案,它实现内存计算和多机并行处理机制的同时,保证了任务执行的高吞吐量及低延迟特性。时态大数据数据下,现有的时态索引利用空间换取时间的方法为提高查询效率,往往采用用空间换取时间的办法,虽然查询效率得到了一定的提升,但额外占用的大量存储空间仍是不可避免的,并且很多都是基于外存计算的,相比内存计算方法,外存的计算速度明显会低几个数量级。如果把此类基于外存相关时态索引算法应用到集群的内存计算框架中,过大的内存消耗对集群的负载能力是一种巨大挑战,利用高消耗的内存容量换取一定的查询速度也显然不太实际。
技术实现思路
因此,鉴于当前时态索引方法在集群基于内存计算的缺陷,本专利技术提出了一 ...
【技术保护点】
1.一种基于集群内存计算下的时态数据索引方法,其特征在于,采用双层索引方法,先将数据进行分区,对分区建立轻量级索引,然后在其内部的Array数据集建立时态索引,其具体实现包括如下索引建立和查询索引两部分:1.索引建立(1)获取集群的最大并发数,存入配置信息表中;(2)对数据进行分区,判断整个数据集下的最高区分单位,然后将同一单位的数据根据比重划分分区数量,使相邻时间数据分到相同的分区中;(3)将分区内部整个数据集分成表示事件将要开始的索引表ST,事件将要结束的索引表ED,事件已经存在的索引表ID三类;(4)建立ST、ED与ID索引表,取数据集中的最小开始时间点作为基准点basetime,把数据集中其他开始时间点与此基准点的差值作为key值,表中事件记录所在数组的下标作为value值建立索引;(5)ID表的建立,采用时间间断方法,首先获取整个数据集的时间段范围N,选取
【技术特征摘要】
1.一种基于集群内存计算下的时态数据索引方法,其特征在于,采用双层索引方法,先将数据进行分区,对分区建立轻量级索引,然后在其内部的Array数据集建立时态索引,其具体实现包括如下索引建立和查询索引两部分:1.索引建立(1)获取集群的最大并发数,存入配置信息表中;(2)对数据进行分区,判断整个数据集下的最高区分单位,然后将同一单位的数据根据比重划分分区数量,使相邻时间数据分到相同的分区中;(3)将分区内部整个数据集分成表示事件将要开始的索引表ST,事件将要结束的索引表ED,事件已经存在的索引表ID三类;(4)建立ST、ED与ID索引表,取数据集中的最小开始时间点作为基准点basetime,把数据集中其他开始时间点与此基准点的差值作为key值,表中事件记录所在数组的下标作为value值建立索引;(5)ID表的建立,采用时间间断方法,首先获取整个数据集的时间段范围N,选取个点作为实际存储点,各点之间的距离单位,根据时间段中存在某个存储点,则在ID表中添加到相应位置即可,故该算法相比不进行数据压缩的空间极限压缩比2.索引查询:接收查询指令,先通过与分区时返回的所有最大时间点进行索引查询,对整体数据集进行剪枝操作,快速找到结果所在分区,然后进入分区内部根据本发明的时态索引方法进行二次查询,得出结果。2.根据权利要求1所述的基于集群内存计算下的时态数据索引方法,其特征在于,所述步骤2的索引查询,其具体实现包括:(1)接收查询指令,首先根据查询开始时间点与分区边界数组进行对比,获取结果数据集所在分区,然后根据时态数据间的关系进行计算,其中,时态数据间的关系如下:当前时间点处存在的事件=前一时间点...
【专利技术属性】
技术研发人员:郑啸,刘厚凯,吴宣够,秦峰,
申请(专利权)人:安徽工业大学,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。