当前位置: 首页 > 专利查询>复旦大学专利>正文

XML关键字检索的最低公共祖先快速查找方法技术

技术编号:2819906 阅读:454 留言:0更新日期:2012-04-11 18:40
本发明专利技术属数据库技术领域,具体提出了一种新型的基于RMQ的关键字检索方法,这种检索方法通过有效的预处理,可以消去XML上关键字检索时借助Dewey编码求解共同祖先的时间系数d,同时由于仅存储结点的欧拉序列而不是Dewey编码,可以有效减少存储空间的开销,所以在性能和空间利用上要优于现有算法。本发明专利技术涉及一种XML关键字检索的最低公共祖先快速查找方法。

【技术实现步骤摘要】

本专利技术属数据库
,具体涉及一种高效的对XML数据进行关键字检 索的方法。
技术介绍
随着XML的流行,XML上的关键字检索也正在成为一个研究热点。XML上 的关键字检索不需要用户对所査询XML的DTD或schema模式、复杂的XML査 询语言(比如XQuery)等相关知识有所了解,因此更容易被用户接受。通常 在Web上的关键字检索,比如google或者百度,他们的返回结果是包含用户 提供的关键字的整个网页。但如果对大XML文档上的关键字检索,由于XML 文档通常被建模成树形结构,有着层次性的嵌套关系,用户通常希望能得到 最小结果片断,此时返回结果应是包含这些关键字的结点集,而且结点集中 的任一结点的子孙结点都不能再包含所查询的关键字。以往的XML关键字检索在求解任意两个结点的最低公共祖先结点(LCA ) 的时候,都是基于Dewey编码,所谓Dewey编码是指每个结点的编码以父亲 结点的编码为前缀,这样两个结点的LCA结点就是他们最长公共前缀所指示 的结点。使用这种编码好处在于给定任意两个结点,只需比较他们的编码就 可以求解出LCA,但同时应看到编码随着结点的深度在增加, 本文档来自技高网...

【技术保护点】
一种XML关键字检索的最低公共祖先快速查找方法,其特征是,该方法首先进行预处理,预处理的具体步骤是: 步骤1,在解析XML文档的过程中,构建欧拉序列E和深度序列L,记录XML文档中每个结点的开始位置,结束位置和深度信息,对XML文档进行序列化,并在处理文本信息的时候,建立倒排表记录每个单词; 步骤2,将深度序列L按长度logn/2划分成2n/logn个块,在每个块上选取最小值组成一个长度为2n/logn的新序列,利用新序列建立Sparse Table; 步骤3,枚举每个等价块,计算并存储块内任意序号间最小值的位置。

【技术特征摘要】

【专利技术属性】
技术研发人员:周傲英谢涛王晓玲
申请(专利权)人:复旦大学
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1