数据索引方法和装置制造方法及图纸

技术编号:7700413 阅读:173 留言:0更新日期:2012-08-23 05:47
本发明专利技术提供了一种数据索引方法和装置。涉及数据管理领域;解决了传统索引技术无法满足大型数据检索需要的问题。该方法包括:创建所述至少一个被索引对象R的索引树;根据至少一个被索引对象的ID建立哈希结构;在所述哈希结构中存储所述被索引对象在所述索引树中各位置的生命期。本发明专利技术提供的技术方案适用于大型关系数据管理系统,实现了高效率高准确性的数据索引。

【技术实现步骤摘要】

本专利技术涉及数据管理领域,尤其涉及一种数据索引方法和装置
技术介绍
近几十年来,数据管理技术发展迅猛,在国民经济建设中起到了突出作用。以Oracle> DB2、SQL Server等为代表的大型关系数据库管理系统(Relational DatabaseManagement System,RDBMS)更是诸多大型信息管理系统、客户关系管理软件不可或缺的核 心部分。同时,以可扩展标记语言(Extensible Markup Language,XML)为代表的半结构化数据管理技术也在数据交换和缺乏严格结构的数据管理方面占据一席之地。上述技术均对数据质量、待处理数据的准确性要求非常高。当原始数据的质量不高吋,需要先经过预处理过程提升数据质量。以部门人事管理系统为例,员エ的个人资料、薪酬待遇和日常考核等信息必须准确。但在诸如经济、军事和电信等领域,数据的不确定性普遍存在,其存在性未知而且各属性值存在误差。尽管数据预处理能够提升原始数据集合的质量,但也可能会丧失原始数据集合的部分性质,导致无法返回高质量的查询結果。典型的应用背景如下。基于位置的服务(Location Base Service, LBS)是移动计算领域的核心问题。位置服务跟踪移动物体(或者用户),然后将物体(或用户)的位置在电子地图上定位,以此为基础提供空间信息服务。在这类应用中,移动物体的位置受到特定技术手段(例如GPS(Global Positioning System,全球定位系统)技术)制约,存在一定的误差。尽管这项误差会随着技术手段的提升而逐步缩小,但是“位置隐私”问题却显得日益突出。移动物体的位置信息非常重要,有些用户并不愿意公诸于众,以免带来麻烦。“位置隐私”的目的是降低位置的精度——在某时刻,移动物体并非在某一空间“点”上,而是在ー个“区域”内,从而保护了隐私。与此同时,各互联网服务提供商仍然能够根据这项“区域”信息提供相应的服务,例如,查询移动对象附近的医院、宾馆等设施。索引技术是数据管理技术的重要内容。关系型数据库往往采用B+树及其变种为一维数据建立索引;在多维数据管理领域或时间-空间数据管理领域,广泛使用R树以及其变种进行索引。这些索引技术均能够大幅提高查询处理速度。同理,在处理不确定性数据中也需要关注索引问题。在某些查询任务中,例如top-k查询,元组的概率值也非常重要,因此需要针对概率维度创建ー维索引,此时传统索引技术有效。但传统的索引技术无法解决所有问题。当各元组的取值必须通过概率分布函数描述,且概率分布函数无法预先指定吋,传统的索引技术索引效率将大幅降低,无法满足应用需求。
技术实现思路
本专利技术提供了一种数据索引方法和装置,解决了传统索引技术无法满足大型数据检索需要的问题。一种数据索引方法,包括创建所述至少ー个被索引对象R的索引树;根据至少ー个被索引对象的ID建立哈希结构;在所述哈希结构中存储所述被索引对象在所述索引树中各位置的生命期。优选的,所述创建至少ー个被索引对象R的索引树包括创建最上层的TPR-Tree ;在所述TPR-Tree之下链接有至少ー个2维R-Tree ;将各R-Tree通过哈希链接链接至一个ー维R-Tree。优选的,所述在所述哈希结构中存储所述被索引对象在所述索引树中各位置的生命期具体为 在所述哈希结构中存储所述被索引对象处在所述TPR-Tree或所述2维R-Tree或所述ー维R-Tree中的生命期。优选的,上述数据索引方法还包括在对任ー被索引对象进行时间间隔查询或时间片查询时,通过所述哈希结构查找所述被索引对象的生命期;根据所述被索引对象在所述索引树中各位置对应的生命期,确定所述被索引对象对应索引在所述索引树中的位置。优选的,所述生命期具体为被索引对象处于同一状态下持续的时间间隔。本专利技术还提供了一种数据索引装置,包括索引树创建模块,用于创建所述至少ー个被索引对象R的索引树;哈希结构生成模块,用于根据至少ー个被索引对象的ID建立哈希结构;关联模块,用于在所述哈希结构中存储所述被索引对象在所述索引树中各位置的生命期。优选的,所述索引树创建模块包括第一创建单元,用于创建最上层的TPR-Tree ;第二创建单元,用于在所述TPR-Tree之下链接有至少ー个2维R-Tree ;第三创建单元,将各R-Tree通过哈希链接链接至一个ー维R-Tree。优选的,上述数据索引装置还包括索引模块,用于在对任一被索引对象进行时间间隔查询或时间片查询时,通过所述哈希结构查找所述被索引对象的生命期,井根据所述被索引对象在所述索引树中各位置对应的生命期,确定所述被索弓I对象对应索引在所述索引树中的位置。本专利技术提供了一种数据索引方法和装置,根据至少ー个被索引对象的ID建立哈希结构,创建所述至少ー个被索引对象R的索引树,再在所述哈希结构中存储所述被索引对象在所述索引树中各位置的生命期,将哈希索引和索引树索引两种方式结合起来对数据进行索引,提高了索引效率和索引精度,解决了传统索引技术无法满足大型数据检索需要的问题。附图说明图I为本专利技术的实施例一提供的一种数据索引方法的流程图;图2为本专利技术的实施例中所涉及的索引树结构示意图3为本专利技术的实施例中哈希结构与索引树关联关系的示意图;图4为本专利技术的实施例三提供的一种数据索引装置的结构示意图。具体实施例方式索引技术是数据管理技术的重要内容。关系型数据库往往采用B+树及其变种为一维数据建立索引;在多维数据管理领域或时间-空间数据管理领域,广泛使用R树以及其变种进行索引。这些索引技术均能够大幅提高查询处理速度。同理,在处理不确定性数据 中也需要关注索引问题。在某些查询任务中,例如top-k查询,元组的概率值也非常重要,因此需要针对概率维度创建ー维索引,此时传统索引技术有效。但传统的索引技术无法解决所有问题。当各元组的取值必须通过概率分布函数描述,且概率分布函数无法预先指定吋,传统的索引技术索引效率将大幅降低,无法满足应用需求。为了解决上述问题,本专利技术的实施例提供了一种数据索引方法和装置。下文中将结合附图对本专利技术的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意組合。首先结合附图,对本专利技术的实施例一进行说明。本专利技术实施例提供了一种数据索引方法,能够进行不确定性数据管理索引。传统的解决方案一般采用树索引或者哈希(Hash)索引的方式,但树索引技术和哈希索引技术都有其优缺点。比如,树索引技术适合随机数据访问;哈希索引技术适合顺序结构数据,类似广播信道。树索引技术对簇集的数据广播非常有效;但簇集对哈希索引技术性能影响不大。哈希索引技术特别适合多属性的数据索引;树索引技术提供了一种基于索引值较准确和完整的全局视图,客户机能快速地在树索引上找到想得到的数据的到达时间,这样,谐调时间自然就缩短了。由于哈希索引不包含数据帧的全局信息,它仅仅只能对客户机判定当前数据帧是否与查询有关提供帮助。其过滤的有效性在很大程度上取决于哈希索引的平均失效率。使用本专利技术实施例提供的数据索引方法完成数据索引的流程如图I所示,包括步骤101、创建所述至少ー个被索引对象R的索引树;本专利技术实施例中,该索引树的最上层是TPR-Tree,然后是多个2维R-Tree,2维的R-Tr本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据索引方法,其特征在于,包括 创建所述至少ー个被索引对象R的索引树; 根据至少ー个被索引对象的ID建立哈希结构; 在所述哈希结构中存储所述被索引对象在所述索引树中各位置的生命期。2.根据权利要求I所述的数据索引方法,其特征在于,所述创建至少ー个被索引对象R的索引树包括 创建最上层的TPR-Tree ; 在所述TPR-Tree之下链接有至少ー个2维R-Tree ; 将各R-Tree通过哈希链接链接至一个ー维R-Tree。3.根据要求2所述的数据索引方法,其特征在于,所述在所述哈希结构中存储所述被索引对象在所述索引树中各位置的生命期具体为 在所述哈希结构中存储所述被索引对象处在所述TPR-Tree或所述2维R-Tree或所述ー维R-Tree中的生命期。4.根据权利要求3所述的数据索引方法,其特征在于,该方法还包括 在对任ー被索引对象进行时间间隔查询或时间片查询时,通过所述哈希结构查找所述被索引对象的生命期; 根据所述被索引对象在所述索引树中各位置对应的生命期,确定所述被索引对象对应索引在所...

【专利技术属性】
技术研发人员:王恩东文中领刘正伟
申请(专利权)人:浪潮北京电子信息产业有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1