本发明专利技术提供了一种用于为数据建立索引的系统,包括:时间段划分单元,被配置为将预定时间范围划分为多个时间段;第一索引建立单元,被配置为:针对当前时间段中的数据建立第一级别索引,每个第一级别索引包括时间段索引和子空间索引;以及第二索引建立单元,被配置为:在当前时间段之后的时间段,针对当前时间段中的数据建立第二级别索引,其中,第二级别索引比第一级别索引具有更细的粒度。本发明专利技术还提供了一种用于为数据建立索引的方法和一种用于查询数据的方法。本发明专利技术能够降低在高频度更新的情况下的索引维护代价,而且能够减少查询过程中的无效扫描,从而提升了查询的性能。
【技术实现步骤摘要】
为数据建立索引的系统和方法以及数据查询方法
本专利技术涉及云计算技术,具体涉及一种用于为数据建立索引的系统和方法以及相应的数据查询方法。
技术介绍
随着RFID、GPS等技术的发展,物联网得到了迅速的普及和广泛的应用。在物联网环境下,数以百万计的检测对象会周期性地产生数据,导致传统的关系型数据库在扩展性方面遇到了瓶颈,其系统吞吐量达不到要求。云数据管理系统具有很好的扩展性,同时支持高度并发,是物联网数据管理的有效方案。云数据管理系统在主键(rowkey)上支持高效的点查询和范围查询。然而,对于非主键查询,则需要进行全表扫描。虽然可以利用映射-化简(Map-Reduce)技术来提高查询的效率,但是对于选择率比较低的查询来说,性能还是较差。物联网数据往往具有多维特性。除了具有时间、空间维度的信息之外,物联网数据还包括很多其他维度的信息。此外,对物联网数据的查询大都是基于时空的多维查询。因此,在物联网应用环境中,除了要满足单个维度的快速查询之外,还需要提供高效的多维查询。物联网数据的另外一个特点就是更新频繁。在物联网环境下,监测对象往往按照一定的时间间隔周期性地产生新的数据,数据更新非常频繁。特别地,在监测对象众多并且数据采样频率比较高的情况下,数据的并发度非常高,因而对数据管理系统的吞吐率提出较高的要求。当前,已经提出了一种云系统中的多维数据索引方案(RT-CAN),其专门用于多维数据的索引和查询。RT-CAN索引方案是一个基于R树(R-tree)的双层索引方案,支持多个属性上的点查询和范围查询。在每个存储节点上,针对本地数据建立相应的R-tree索引,然后按照特定的索引节点选择策略从每个局部索引中选择一部分节点发布到全局索引中。为了提高查询的速度,保证系统的可扩展性,在全局索引中采用了能够支持多维查询的覆盖网络CAN网络,在进行索引节点选择的时候采用了基于代价模型的自适应调整策略。具体地,RT-CAN索引方案大致包括以下操作:(1)当从客户端收到一个新的数据插入请求后,通过云存储系统的接口找到对应的数据存储节点,并将数据保存到该节点上;(2)对该存储节点上建立的R-Tree结构的本地索引进行更新;以及(3)将本地索引的更新同步到全局索引。但是,为了保持树的平衡,在数据插入的过程中,RT-CAN方案需要不断地对索引节点进行分裂调整(每次数据的插入都会触发对本地索引的更新,进而影响到全局索引)。所以,索引的维护代价非常高,尤其是对数据插入比较频繁的应用来说,索引的维护代价过高会对系统的吞吐量带来很大的影响。因此,该方案并不适合应用于物联网中。因此,需要一种适用于物联网的数据索引系统和方法,能够针对物联网中更新频繁的多维数据实现高吞吐量操作。
技术实现思路
在本专利技术中,提出了一种同时支持频繁数据更新和高效数据查询的方案。本专利技术的主要思想是:在物联网应用中,监测对象的数据一旦生成就不会发生改变。另外,监测对象的空间分布往往具有不均匀性,并且在不同时间段内监测对象的空间分布也会发生变化。因此,可以考虑在时间维度上把数据分为当前时间段数据和历史时间段数据,并针对不同时间段的数据在不同的粒度上进行索引,从而减少索引更新的次数并降低索引维护的代价。另外,可以考虑数据在时间和空间分布上的不均衡性来进行数据划分。根据本专利技术的一个方面,提供了一种用于为数据建立索引的系统,包括:时间段划分单元,被配置为将预定时间范围划分为多个时间段;第一索引建立单元,被配置为:针对当前时间段中的数据建立第一级别索引,每个第一级别索引包括时间段索引和子空间索引;以及第二索引建立单元,被配置为:在当前时间段之后的时间段,针对当前时间段中的数据建立第二级别索引,其中,第二级别索引比第一级别索引具有更细的粒度。优选地,第一索引建立单元采用B+树来建立时间段索引,B+树中的每一个叶节点包含子空间索引。优选地,第一索引建立单元采用R树来建立子空间索引。优选地,第二索引建立单元采用R树或网格索引来建立第二级别索引,所述第二级别索引是记录级别的索引。优选地,该系统还包括:数据存储单元,被配置为将时间和空间上相邻的数据存储在相同或相邻的存储区域中。优选地,时间段划分单元被配置为:根据先验知识将预定时间范围划分为多个时间段,使得数据均匀分布在所述多个时间段内。优选地,时间段划分单元还被配置为:计算每个时间段内的数据划分的均匀程度以及数据划分层数;如果某个时间段内的数据划分的均匀程度大于第一阈值并且数据划分层数大于第二阈值,则将该时间段划分为更多个时间段;或者如果某个时间段内的数据划分的均匀程度小于第一阈值并且数据划分层数小于第二阈值,则将该时间段与相邻的时间段合并。根据本专利技术的另一个方面,提供了一种用于为数据建立索引的方法,包括:将预定时间范围划分为多个时间段;针对当前时间段中的数据建立第一级别索引,每个第一级别索引包括时间段索引和子空间索引;以及在当前时间段之后的时间段,针对当前时间段中的数据来建立第二级别索引,其中,第二级别索引比第一级别索引具有更细的粒度。优选地,采用B+树来建立时间段索引,B+树中的每一个叶节点包含子空间索引。优选地,采用R树来建立子空间索引。优选地,采用R树或网格索引来建立第二级别索引,所述第二级别索引是记录级别的索引。优选地,该方法还包括:将时间和空间上相邻的数据存储在相同或相邻的存储区域中。优选地,将预定时间范围划分为多个时间段的步骤包括:根据先验知识将预定时间范围划分为多个时间段,使得数据均匀分布在所述多个时间段内。优选地,将预定时间范围划分为多个时间段的步骤还包括:计算每个时间段内的数据划分的均匀程度以及数据划分层数;如果某个时间段内的数据划分的均匀程度大于第一阈值并且数据划分层数大于第二阈值,则将该时间段划分为更多个时间段;或者如果某个时间段内的数据划分的均匀程度小于第一阈值并且数据划分层数小于第二阈值,则将该时间段与相邻的时间段合并。根据本专利技术的另一个方面,提供了一种用于查询数据的方法,包括:判断要查询的数据是当前数据还是历史数据;如果要查询的数据是当前数据,则通过第一级别索引来查询该数据,每个第一级别索引包括时间段索引和子空间索引;以及如果要查询的数据是历史数据,则通过第二级别索引来查询该数据,其中,第二级别索引比第一级别索引具有更细的粒度。优选地,该查询包括以下类型:点查询、范围查询和K近邻查询。优选地,时间段索引是采用B+树来建立的,B+树中的每一个叶节点包含子空间索引。优选地,子空间索引是采用R树来建立的。优选地,第二级别索引是采用R树或网格索引来建立的,所述第二级别索引是记录级别的索引。本专利技术能够采用具有不同粒度的索引对当前数据和历史数据分别建立索引,极大地降低了在频繁更新的情况下的索引维护代价。此外,本专利技术所采用的数据划分策略可以使存储节点内部的数据分布均匀并且在物理存储空间上彼此相邻,从而减少了查询过程中的无效扫描,提升了查询性能。附图说明通过下文结合附图的详细描述,本专利技术的上述和其它特征将会变得更加明显,其中:图1是示出了根据本专利技术第一实施例的、用于为数据建立索引的系统的框图。图2是示出了根据本专利技术第一实施例的索引结构的示意图。图3是示出了根据本专利技术第二实施例的、用于为数据建立索引的系统本文档来自技高网...

【技术保护点】
一种用于为数据建立索引的系统,包括:时间段划分单元,被配置为将预定时间范围划分为多个时间段;第一索引建立单元,被配置为:针对当前时间段中的数据建立第一级别索引,每个第一级别索引包括时间段索引和子空间索引;以及第二索引建立单元,被配置为:在当前时间段之后的时间段,针对当前时间段中的数据建立第二级别索引,其中,第二级别索引比第一级别索引具有更细的粒度。
【技术特征摘要】
1.一种用于为数据建立索引的系统,包括:时间段划分单元,被配置为将预定时间范围划分为多个时间段;第一索引建立单元,被配置为:针对当前时间段中的数据建立第一级别索引,每个第一级别索引包括时间段索引和子空间索引;以及第二索引建立单元,被配置为:在当前时间段之后的时间段,针对当前时间段中的数据建立第二级别索引,其中,第二级别索引比第一级别索引具有更细的粒度;其中,所述时间段划分单元被配置为:根据先验知识将预定时间范围划分为多个时间段,使得数据均匀分布在所述多个时间段内;计算每个时间段内的数据划分的均匀程度以及数据划分层数;如果某个时间段内的数据划分的均匀程度大于第一阈值并且数据划分层数大于第二阈值,则将该时间段划分为更多个时间段;或者如果某个时间段内的数据划分的均匀程度小于第一阈值并且数据划分层数小于第二阈值,则将该时间段与相邻的时间段合并。2.根据权利要求1所述的系统,其中,第一索引建立单元采用B+树来建立时间段索引,B+树中的每一个叶节点包含子空间索引。3.根据权利要求1所述的系统,其中,第一索引建立单元采用R树来建立子空间索引。4.根据权利要求1所述的系统,其中,第二索引建立单元采用R树或网格索引来建立第二级别索引,所述第二级别索引是记录级别的索引。5.根据权利要求1所述的系统,还包括:数据存储单...
【专利技术属性】
技术研发人员:饶佳,胡卫松,
申请(专利权)人:日电中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。