当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于XML数据的高效路径索引方法技术

技术编号:2862135 阅读:195 留言:0更新日期:2012-04-11 18:40
本发明专利技术属数据库技术领域,具体提出了一种新型的XML路径索引-UD(k,l)索引,这是一种高效的近似索引结构,数据节点的归类根据其k长度的向上路经和l长度的向下路径。该索引全面的利用了XML数据节点的向上局部相似度和向下局部相似度的信息,所以能够用来高效的执行路径表达式,特别是用来执行分支路径表达式。(*该技术在2024年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术属数据库
,具体涉及一种新颖高效的对XML数据进行索引的方法。
技术介绍
近年来,XML(可扩展标记语言)已经成为因特网上数据分发和交换的主要标准。随着XML文档的大量出现,针对XML数据的查询也得到了人们越来越多的关注。各种各样的查询语言纷纷被提出。其中,执行路径表达式是XML查询的重要方面。最简单路径表达式的执行方法是直接在整个XML文档上进行详尽的查找,这显然是很低效的。路径索引通过将查找限制在仅与查询有关的XML部分文档上来提高路径表达式的执行效率。因此,如何从半结构化数据中抽取路径索引结构近来被广泛关注。已提出的路径索引结构有DataGuide,1-index,Fabric索引和A(k)索引等。DataGuide及其后续工作提出的方法是建立一个带标签的有向图形式的结构摘要。意图是用尽可能少的节点和边来保存数据图中所有的路径信息。然而,这种类型的索引大小甚至是原始数据的几倍。这是因为它们是精确索引从XML数据的根节点开始,所有的路径包括那些极少用到的很长的路径都被记录了下来,而且在DataGuide中,每个数据节点出现的机会可能不止一次。A(k)索引通过考本文档来自技高网...

【技术保护点】
一种基于XML数据的高效路径索引方法,其特征是通过构建UD(k,l)索引图,用于执行路径表达式或执行分支路径表达式进行查询,具体步骤为:对源XML文档构建UD(k,l)索引,将预期的向上相似度k和向下相似度l作为输入,建立好的UD(k,l)文档作为输出,第一步,对所有的数据节点按其标签进行分类,得到一个节点集列表,每一个节点集都有一个唯一的标签;然后计算每个节点集的向上相似度,反复分裂具有最小向上相似度的节点集,直到所有节点集中最小的向上相似度ub不小于给定的参数k;然后,计算每个节点集的向下相似度,同样反复分裂节点直到所有节点集中最小的向下相似度db不小于给定的参数l;第二步是建立索引节点及...

【技术特征摘要】

【专利技术属性】
技术研发人员:吴红伟周傲英
申请(专利权)人:复旦大学
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1