当前位置: 首页 > 专利查询>南开大学专利>正文

一种面向海量小规模XML文档融合路径约束的XML检索方法技术

技术编号:3982539 阅读:372 留言:0更新日期:2012-04-11 18:40
一种面向海量小规模XML文档融合路径约束的XML检索方法。包括:创新地以带有XPath形式路径约束的关键字作为用户提交查询的方式,使用户更加容易且准确地表达查询需求;提出一种新的融合路径约束的检索排序模型,该模型在传统向量空间模型基础上,充分利用XML文档的结构层次特性,巧妙地将N-Gram思想应用于路径约束匹配计算,从而获得文档同用户查询的相关度,最终按照相关度对文档进行排序。本发明专利技术提出的XML文档检索方案,能够准确地表达用户的查询需求,且充分利用XML文档的路径约束来计算文档同用户查询的相关度,通过本发明专利技术方案可得到更加符合用户需求的检索结果。本发明专利技术可用于XML文档检索、XML数据库检索等领域。

【技术实现步骤摘要】
一种面向海量小规模XML文档融合路径约束的XML检索方法
本专利技术属于数据库
,具体涉及一种新型的融合路径约束,对海量小规模 XML文档进行检索的方案。
技术介绍
可扩展标记语言(extensible Markup Language,XML)凭借其自描述性、可扩展性 和半结构化等特点,已经成为最受欢迎的信息表示和数据交换的标准,并在各个领域得到 了广泛支持和应用。随着XML形式数据和信息大量涌现,如何从海量XML文档中获取用户 感兴趣的信息,成为人们广泛关注的问题之一。正是基于这种需求,信息检索这一传统的数 据管理和获取技术,开始涉足XML数据领域。由于使用简单、界面简洁,关键字检索方式在传统的信息检索领域取得了巨大成 功,近年来,XML文档的关键字检索也受到工业界和学术界的广泛关注。XML关键字检索不 同于结构化的XML查询(如XPath、XQuery等),不仅易于使用,且用户不再需要了解所查 询XML文档的DTD或Schema模式,也不需要学习和掌握复杂的查询语言等相关知识,适用 于互联网中大量存在的小规模自由XML文档。但是,XML关键字检索方式并没有充分考虑 XML文档半结构化检索的特性,且用户单凭关键字的简单组合难以或无法准确表达自己的 查询需求。因此,如何帮助用户更准确地表达自己的查询需求,成为了 XML信息检索领域研 究难题之一。当用户提交查询需求后,搜索引擎将在海量文档集中检索出可能与用户需求相关 的文档,并将这些文档按照其同用户需求的相关性进行排序,最后返回给用户。在传统的信 息检索中,通常使用向量空间模型(Vector Space Model,VSM)来衡量文档同用户查询的相 关性。向量空间模型是将文档和查询都表示成由标引词权重构成的向量,利用向量间的相 似度来评价文档和查询的相关性,而向量间的相似度可用它们之间夹角的余弦值来定量计 算。在向量空间模型中,查询标引词权重可由用户设定,也可认为所有关键字的权重相同; 而文档标引词权重通常采用著名的tf-idf方案进行计算,tf指标引词在文档中出现的频 率,用于体现标引词对文档的重要程度,可用tfy表示标引词termi在文档Clj出现的频率; idf指标引词的逆文档频率,用于体现标引词区分文档的能力,标引词termi的逆文档频率 Idfi的一般计算公式为Jdfi = Iog(NAii),其中,N表示系统中的文档总数,Iii表示系统中 含有标引词termi的文档数目,则标引词termi在文档(Ij中的权值Wi,」可以描述为=Wi,,.= tfi jXidfi = tf^Xlogm/rO。但是由于XML文档具有结构层次特性,这种纯文本上的 tf-idf加权方案并不完全适用,因此如何改进标引词加权方案和向量空间模型来计算文档 和查询的相似度,也成为需要进一步研究的问题之一。 目前,对于大规模XML文档的检索,研究人员大多认为不需要将整篇文档返回给 用户,只返回符合检索条件的文档片段即可,但判断符合检索条件片段粒度通常很困难。而 且,对于海量小规模XML文档的检索,由于文档本身较短小,如果只返回部分片段,很可能造成提供信息过少,不能满足用户的需求。因此不妨同Web搜索引擎一样,快捷地将检索出 的整篇文档返回给用户。
技术实现思路
本专利技术的目的在于克服现有技术存在的上述不足,提出一种面向海量小规模XML 文档融合路径约束的XML检索方法。本专利技术针对现有技术中的问题,创新地以带有XPath形式路径约束的关键字作为 用户提交查询的方式;设计一种新的融合路径约束的检索排序模型,该模型在传统向量空 间模型的基础上,充分利用XML文档的结构层次特性,巧妙地将N-Gram思想应用于模糊路 径约束匹配的计算中,从而对文档标引词加权方案进行调整,最终获得文档同用户查询的 相关度,并按照该相关度的高低对文档进行排序;最后将检索排序后的整篇文档返回给用 户。该方法的主要步骤如下第1、对XML文档进行预处理;第2、对用户提交的查询进行分析处理,形式化地表达用户的检索意图;第3、利用本专利技术提出的检索排序模型对XML文档进行检索,并将检索结果依照相 关度排序,最终返回给用户。下面分别详述如下第1、对XML文档进行预处理;第1. 1、将XML文档定义为一棵XML文档树,具体定义如下定义1 一篇XML文档D可以表示为一棵有序文档树,用9元组T = (V, ν0, Ε,Σ, P, type, id, lab)表示,其中①.V是文档D中所有XML节点的集合;②.ν。是文档D的根节点,V。e V ;③.E是文档D中父子约束的集合,是一个二元关系即五c FxF=r2,且E= {(u,V) IU e V,V e V,U是V的父亲节点},若有父子约束(u,ν) e Ε,可简写为u — ν ;④.有穷字母表Σ是文档D中所有节点名称的集合;⑤.P是文档D中祖先路径约束的集合,P是一个多元关系即Pc KU F2U…U #1, 且P = {(v0, V1, ... , vn) I (vi; vi+1) e E,0 彡 i < η} U {ν。},给定节点 Vn 的祖先路 径约束(y0,V1, vn) e P,表示的是从根节点Vtl到节点Vn的连续父子约束,即Vtl — V1, V1 — v2,...,Vlri — vn,简写为 V。一 V1 — V2 —…一vn,使用函数 path :V — P 返回 XML 节 点的祖先路径约束,即当ν e V,path(v) e P ;⑥.函数type =V — {ELEM,ATTR,TEXT}返回XML节点的类型,给出节点ν e V, 有a)若ν是元素节点,则type (ν) = ELEM,所有元素节点组成的集合用Ve表示,则 Ve = {ν I ν e V Λ type (ν) = ELEM};b)若ν是属性节点,则type (ν) = ATTR,所有属性节点组成的集合用Va表示,则 Va{v|v e V Λ type (ν) = ATTR ;c)若ν是文本节点,则type (ν) = TEXT,所有文本节点组成的集合用Vt表示,则 Vt = {ν I ν e V Λ type (ν) = TEXT};⑦.函数id :V — DeweyId返回文档D中节点ν的编码,即当ν G V, id (ν) e Deweyld,其中,DeweyId是文档D中所有节点编码的集合,节点ν的Dewey编码是 节点ν在文档D中的唯一标识;⑧.函数lab :V — Σ U {#text}返回文档D中节点ν的名称,即当ν e Ve U Va, lab (ν) eE,定义文本节点的名称都为#text,即当ν e Vt, lab (v) = #text。第1. 2、使用Dewey编码为XML文档进行编码;第1. 3、为检索系统所有XML文档的元素节点名称、属性节点名称和文本节点的内 容建立标引词和节点编码的倒排索引表;第1. 4、计算系统中标引词在各篇XML文档中的频率(出现次数)和标引词的逆文 档频率,分别使用函数GetTermTF(term)和GetTermIDF(term)返回标引词term的频率和 逆文档频率。第2、对用户提交的查询进行分析处理,形式化地本文档来自技高网
...

【技术保护点】
一种面向海量小规模XML文档融合路径约束的XML检索方法,其特征在于该方法包括如下步骤:第1、对XML文档进行预处理第1.1、将XML文档定义为一棵XML文档树,定义1:一篇XML文档D可以表示为一棵有序文档树,用9元组T=(V,v↓[0],E,∑,P,type,id,lab)表示,其中:①.V是文档D中所有XML节点的集合;②.v↓[0]是文档D的根节点,v↓[0]∈V;③.E是文档D中父子约束的集合,是一个二元关系即E*V×V=V↑[2],且E={(u,v)|u∈V,v∈户的检索意图第2.1、对用户提交的查询方式进行重新定义,定义2:用户以如下方式提交查询:lab↓[11]/lab↓[12]/....../lab↓[1n↓[1]]:key↓[11]w↓[11,q],key↓[12]w↓[12,q],......,key↓[1m↓[1]]w↓[1m↓[1],q]lab↓[21]/lab↓[22]/....../lab↓[2n↓[2]]:key↓[21]w↓[21,q],key↓[22]w↓[22,q],......,key↓[2m↓[2]]w↓[2m↓[2],q]……lab↓[p1]/lab↓[p2]/....../lab↓[pn↓[p]]:key↓[p1]w↓[p1,q],key↓[p2]w↓[p2,q],......,key↓[pm↓[p]]w↓[pm↓[p],q]其中,key↓[ij](i=1,2,...,p,j=1,2,...,m↓[i])为用户提交的关键字,关键字的总数m=∑↓[i=1]↑[p]m↓[i];w↓[ij,q](i=1,2,...,p,j=1,2,...,m↓[i])为用户给关键字key↓[ij]设定的权重,w↓[ij,q]>0,也可缺省设定,认为所有的关键字权重相同,即w↓[ij,q]=1/m;lab↓[i1]/lab↓[i2]/……/lab↓[in↓[i]](i=1,2,...,p)为用户给关键字key↓[ij](j=1,2,...,m↓[i])设定的路径约束,n↓[i]为关键字key↓[ij]路径约束的长度,lab↓[ik](i=1,2,...,p,k=1,2,...,n↓[i])为该路径约束中节点的名称,当1≤r<s≤n↓[i]时,lab↓[ir]和lab↓[is]对应的节点具有祖先后裔关系;第2.2、将用户提交的查询解析成为重新定义的用户查询形式,定义3:对于定义2中用户提交的...

【技术特征摘要】

【专利技术属性】
技术研发人员:袁晓洁张莹温延龙刘众奇汪陈应
申请(专利权)人:南开大学
类型:发明
国别省市:12[中国|天津]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1