【技术实现步骤摘要】
本专利技术属数据库
,具体涉及一种高效的对XML数据进行关键字检 索的方法。
技术介绍
随着XML的流行,XML上的关键字检索也正在成为一个研究热点。XML上 的关键字检索不需要用户对所査询XML的DTD或schema模式、复杂的XML査 询语言(比如XQuery)等相关知识有所了解,因此更容易被用户接受。通常 在Web上的关键字检索,比如google或者百度,他们的返回结果是包含用户 提供的关键字的整个网页。但如果对大XML文档上的关键字检索,由于XML 文档通常被建模成树形结构,有着层次性的嵌套关系,用户通常希望能得到 最小结果片断,此时返回结果应是包含这些关键字的结点集,而且结点集中 的任一结点的子孙结点都不能再包含所查询的关键字。以往的XML关键字检索在求解任意两个结点的最低公共祖先结点(LCA ) 的时候,都是基于Dewey编码,所谓Dewey编码是指每个结点的编码以父亲 结点的编码为前缀,这样两个结点的LCA结点就是他们最长公共前缀所指示 的结点。使用这种编码好处在于给定任意两个结点,只需比较他们的编码就 可以求解出LCA,但同时应看到编码随着 ...
【技术保护点】
一种XML关键字检索的最低公共祖先快速查找方法,其特征是,该方法首先进行预处理,预处理的具体步骤是: 步骤1,在解析XML文档的过程中,构建欧拉序列E和深度序列L,记录XML文档中每个结点的开始位置,结束位置和深度信息,对XML文档进行序列化,并在处理文本信息的时候,建立倒排表记录每个单词; 步骤2,将深度序列L按长度logn/2划分成2n/logn个块,在每个块上选取最小值组成一个长度为2n/logn的新序列,利用新序列建立Sparse Table; 步骤3,枚举每个等价块,计算并存储块内任意序号间最小值的位置。
【技术特征摘要】
【专利技术属性】
技术研发人员:周傲英,谢涛,王晓玲,
申请(专利权)人:复旦大学,
类型:发明
国别省市:31[中国|上海]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。