【技术实现步骤摘要】
可自适应动态伸缩的时空多属性索引方法及其检索方法
[0001]本申请涉及数据处理
,特别是涉及一种可自适应动态伸缩的时空多属性索引方法及其检索方法。
技术介绍
[0002]时空多属性索引是指可以同时索引时间信息、空间信息和其他多种属性信息的索引,即最后建立的索引只有1套,而不是针对每个维度单独建立1套索引。含有时间、空间和多属性的数据被时空多属性索引结构进行索引后,用户可以只针对这1套索引进行时间、空间和其他属性的同时检索。相比而言,传统概念的索引构建方式是针对时间、空间和众多属性一一建立索引,用户在检索时系统需要将查询条件投递到各个索引去检索,最后再进行汇总过滤。可见时空多属性索引无疑从节约存储空间和检索效率上来说都是较优的技术。
[0003]然而,目前的时空检索方法,由于时空多属性索引结构要涵盖的数据项较多(时间、空间以及其他众多索引),因此一般时空多属性索引比单一维度的索引所占用的存储空间要大。上述所涉及的技术未考虑在资源有限(如存储受限)的环境下如何能够自适应调节时空多属性索引的存储开销。另外,索引的构 ...
【技术保护点】
【技术特征摘要】
1.一种可自适应动态伸缩的时空多属性索引方法,其特征在于,所述方法包括:构建待索引文档集;所述待索引文档集中每篇文档包括:时间信息、空间信息以及词列表;构建所述待索引文档集的树状数据结构;所述树状数据结构包括:根节点和叶子节点;所述根节点向下展开包括多级时间多属性节点,所述时间多属性节点向下展开包括多级空间多属性节点,所述根节点通过根节点链表进行表示,所述时间多属性节点通过时间多属性节点链表进行表示,所述空间多属性节点通过空间多属性节点链表进行表示,所述根节点链表中包括:时间级别信息、时间值、位图索引、指向下一个链表元素的指针以及指向下一级节点的指针,所述多属性节点链表包括:时间级别、时间值、位图索引以及指向下一级节点的指针,所述空间多属性节点链表包括:R树的最小限定矩形、位图索引以及指向下一级节点的指针;所述叶子节点通过元素结构进行表示,所述元素结构包括:空间信息、时间信息、词列表以及URL地址;将所述待索引文档集中的每一篇文档存储至所述树状数据结构。2.根据权利要求1所述的方法,其特征在于,将所述待索引文档集中的每一篇文档存储至所述树状数据结构,包括:提取所述待索引文档集中的每一篇文档的时间信息、空间信息以及词列表;将所述词列表利用位图索引进行映射,得到位图元素;根据所述时间信息,查询所述根节点链表,使得所述时间信息包含在所述根节点链表的时间值中,得到时间值元素;当包含时间多属性节点链表时,查询所述时间多属性节点链表,使得时间信息包含在所述时间多属性节点链表的时间信息中,直至没有下一级时间多属性节点链表;根据所述待索引文档集中的每一篇文档的空间信息,利用R树插入算法,将每一篇文档插入至所述时间多属性节点链表的下一级空间多属性节点链表中,直至插入所述叶子节点。3.根据权利要求2所述的方法,其特征在于,根据所述时间信息,查询所述根节点链表,使得所述时间信息包含在所述根节点链表的时间值中,得到时间值元素,包括:根据时间信息D.t,查询所述根节点链表,确定时间值value包含D.t的元素rln,构建命中关系为:rln.bmi=rln.bmi|blw其中,bmi为位图索引,blw为位图元素;若未查询到元素rln,则创建一个根节点链表元素rln,并插入到根节点中,并使得rln.bmi=rln.bmi|blw。4.根据权利要求3所述的方法,其特征在于,当包含时间多属性节点链表时,查询所述时间多属性节点链表,使得时间信息包含在所述时间多属性节点链表的时间信息中,直至没有下一级时间多属性节点链表,包括:当包含时间多属性节点链表时,查询根节点链表元素rln的下一级时间多属性节点中value包含D.t的元素rln1,构建命中关系为:rln1.bmi=rln1.bmi|blw若未查询到rln1,则创建一个时间多属性节点,并将该时间多属性节点插入到父节点
并关联元素rln1,rln1.bmi=rln1.bmi|blw,直至元素rln1没有下一级时间多属性节点链表。5.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:从设置的初始比例M%开始,以步长δ为l%,按照(M%+δ)的规模比例构建所述待索引文档集DS不同大小的子集;其中,待索引文档集的子集为DS_sub,DS_sub中每个元素为一个文档集;对DS_sub中的每个文档集DS_sub
i
中的每一篇文档的空间信息s,时间信息t进行抽取,并利用分词组件将文档中的词全部提取形成词列表lw;针对每个DS_sub中的每个文档集DS_sub
i
,变换不同的时间层级数构建所述树状数据结构的索引,其中,对DS_sub
i
,将时间多属性节点的层级从1增长到m级,构建m种不同的树状数据结构的索引;当|DS_sub|=n时,得到n
×
m个树状数据结构的索引,将n
×
m个树状数据结构的索引的存储量stor进行记录;对每个DS_sub
i
中的全部空间信息s,时间信息t和lw构建向量v_sub
i
;将DS_sub
i
利用时间层级为j层级的索引构建算法所得存储量设置为stor
...
【专利技术属性】
技术研发人员:张翀,葛斌,赵翔,何春辉,肖卫东,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。