【技术实现步骤摘要】
一种处理地理文本Skyline查询的混合空间索引机制
本专利技术涉及一种处理地理文本Skyline查询的混合空间索引机制,具体涉及针对包含关键词文本属性与地理空间位置属性的数据集的有效组织存储和针对该数据集的Skyline查询,属于计算机科学中的查询索引领域。
技术介绍
随着社交网络的迅速发展,大量的附带文本关键词标签的数据(Geo-TextualData)随之产生。例如,用户在新浪微博中发布的个人微博状态(附带着地理位置和微博标签信息),餐馆在美团app上发布的饭店信息(附带着饭店的地理位置信息以及打折信息、菜品信息等)。这些数据主要包含了两个维度的信息:地理位置信息和关键词信息。针对数据点的地理空间位置信息,当前的研究中主要采用R*树结构对数据点进行有效的组织和存储,R*树的核心思想是依据数据点的空间位置分布,对分布较近的数据点进行聚合从而构造多叉索引树,其中所有的数据点都存储在多叉索引树的叶子节点中。针对同时包含了地理空间位置以及关键词文本信息的数据集合,Beckmann.N等人[1]提出了R树结构存储空间数据点,R树的核心思想就是尽可能的把空间位置比较靠近的数据点进行聚合。Wang等人[2]提出了AP(Adaptivespatial-textualPartitionTree)树索引结构用于处理基于数据流的连续空间关键词查询(ContinuesSpatial-KeywordQueriesOverStreams)。之前的处理空间关键词的索引结构要么采用空间属性优先进行构造,要么采用关键词属性优先进行构造。然而在实际构造索引的过程中,两个方案优劣性并不是 ...
【技术保护点】
IMR*‑T树构造的具体步骤如下所示:步骤一、首先基于数据集中各个数据点的地理空间位置分布,利用传统R*树的构造方法,即遍历数据集中的数据点并进行插入操作,以对索引树进行构造,直到所有的数据点都被插入到索引树中,则索引树的主体架构构造完毕。步骤二、为步骤一中构造的索引树的每一个叶子节点构造一个Inverted File(倒排文件),该Inverted File中存储对应叶子节点中包含的所有数据点的关键词文本信息,并且该Inverted File与叶子节点之间是一一对应的关系,因此在两者之间构造了一个由叶子节点指向Inverted File的指针。步骤三、在步骤一和步骤二构造的索引结构基础上,从叶子节点层逐层往上,为每一个索引节点添加该节点中存储的所有数据点的框架属性信息,包括最小边界矩形(MBR,Minimum Bounding Rectangle)和关键词文本相似度信息,以及指向该节点左兄弟节点的横向指针。步骤四、在建立好的IMR*‑T树的基础上,通过遍历该IMR*‑T树,以应答用户的Skyline查询请求,并返回Skyline结果。
【技术特征摘要】
1.IMR*-T树构造的具体步骤如下所示:步骤一、首先基于数据集中各个数据点的地理空间位置分布,利用传统R*树的构造方法,即遍历数据集中的数据点并进行插入操作,以对索引树进行构造,直到所有的数据点都被插入到索引树中,则索引树的主体架构构造完毕。步骤二、为步骤一中构造的索引树的每一个叶子节点构造一个InvertedFile(倒排文件),该InvertedFile中存储对应叶子节点中包含的所有数据点的关键词文本信息,并且该InvertedFile与叶子节点之间是一一对应的关系,因此在两者之间构造了一个由叶子节点指向InvertedFile的指针。步骤三、在步骤一和步骤二构造的索引结构基础上,从叶子节点层逐层往上,为每一个索引节点添加该节点中存储的所有数据点的框架属性信息,包括最小边界矩形(MBR,MinimumBoundingRectangle)和关键词文本相似度信息,以及指向该节点左兄弟节点的横向指针。步骤四、在建立好的IMR*-T树的基础上,通过遍历该IMR*-T树,以应答用户的Skyline查询请求,并返回Skyline结果。2.如权利要求书步骤一所述的IMR*-T树,其特征在于,依照数据点的空间位置分布构造R*树时包括:遍历整个数据集合按照R*树的构造策略将所有的数据点插入到IMR*-T树中。再将数据点插入到IMR*-T树的过程中会依据不同的情况采用不同的策略进行相应的处理。假设当前遍历到的待插入数据点为e,首先采用ChoosePath(选择路径)策略选择合适的插入路径,并将数据点e插入到相应的叶子节点中。插入新的数据点之后,可能会出现叶子节点溢出的情况,而所谓的节点溢出是指节点中包含的对象数量超出了某一阈值φ(这个阈值是初始定义的一个索引树节点中所能包含对象数量的一个上限值),此时采用PickIrrelevant(挑选无影响节点)策略选择该溢出节点中对所在MBR影响最小的那些节点进行重插入,重插入过程和上述数据点e的插入过程类似。当进行完重插入步骤之后,IMR*-T树中可能依旧存在叶子节点处于溢出的状态,此时按照自底向上和自左向右的顺序依次处理处于溢出状态的节点,在处理这些节点时有两种情况:(1)若当前溢出节点所在层在之前处理过程中已经采用过PickIrrelevant重插入策略去解决溢出节点的溢出问题,那么此时采用NodeSplit(节点分裂)策略对溢出节点进行分裂处理。(2)若当前溢出节点所在层在之前处理过程中未采用过PickIrrelevant数据点重插入策略,则对当前溢出节点调用PickIrrelevant策略进行重插入处理。最后直到IMR*-T树中不存在节点溢出现象,则数据点e插入成功。3.如权利要求书步骤二所述的IMR*-T树,其特征在于,在构造每个叶子节点所对应的InvertedFile时,还包括:原始的数据集中每一个数据点的关键词文本集合由若干关键词构成,对这...
【专利技术属性】
技术研发人员:郑吉平,张智明,张丝曼,
申请(专利权)人:南京航空航天大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。