基于语义相关的XML关键字top-k查询方法技术

技术编号:5453752 阅读:562 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于语义相关的XML关键字top-k查询方法,以树结构对需XML文档进行预处理,将XML文档中能够满足下面条件的信息片段看作虚拟文档;根据相关度计算模型,计算出每个虚拟文档和被该虚拟文档所包含的词项之间的相关度,并对每个词项建立包含该词项虚拟文档的倒排表,倒排表的顺序按照相关度的大小由高到底排序;在虚拟文档d和关键字查询Q之间的相关度的基础上实现top-k查询。本发明专利技术能够在不计算出所有查询结果的情况下,根据用户的需要提前返回给用户最相关若干查询结果,避免冗余操作,提高了检索的效率和质量。

【技术实现步骤摘要】

本专利技术属数据库
,具体涉及一种XML文档关键字top-k查询方法。
技术介绍
由于具有简洁、灵活和高可扩展性的特点,XML已经成为数据存储和交换的重要格 式之一,用户对XML数据进行检索的效率和质量也提出了更高的要求。用户使用关键字查 询时既不需要了解XML文档的结构也不需要掌握复杂的查询语言,因此,关键字查询逐步 成为XML数据信息检索的重要手段。随着XML数据量迅速增加,查询结果的数量也相应较 大,与web信息检索类似,用户往往关心的是最相关的几个结果。计算出所有查询结果返回 给用户,从查询效率和用户需求来讲均不可取。利用top-k查询的思想能够在不需计算所 有查询结果的情况下,提早输出最相关的k个结果。能够提高查询的效率并满足用户需求。传统的关键字查询方法如“G. Li,J. Feng,J.Wang and L.Zhou Effective keyword searchfor valuable LCAs over XML document in CIKM pages 30-41,2007. ”所描述的, 是通过计算包含关键字节点的LCA进行查询,这种方法按照关键字出现在文档中的先后顺 序进行计算查询结果,查询结果的输出顺序和其在文档中的先后顺序一致。这样,与用户需 求不相关的查询结果也会首先返回给用户。也有方法如“Z.Bao,T. Ling,B. Chen and J. Lu. Effective XML Keyword Search with Relevance Oriented Ranking, in ICDE 2009.,,米 用计算出所有结果再进行相关度排序,这样虽然能够返回给用户相关结果,但常常会产生 大量的无用操作,影响查询效率。Threshold Algorithm(TA)算法(如"Ronald Fagin,Amnon Lotem, and Moni Naor. Optimalaggregation algorithms for middleware. In PODS, Santa Barbara, California, May 2001.,,)是经典的top-k算法之一,已经广泛应用在关系数据库和信息 检索领域能够顺序访问相关度属性的值是TA算法实现的条件之一。在XML文档信息检索 中,结构语义是影响查询结果相关度的重要因素之一,但某些结构语义信息在查询前是未 知的,这会影响TA算法中阈值(Threshold)的设置,无法实现TA算法。
技术实现思路
为了克服现有技术的不足,本专利技术提供一种XML关键字top-k检索算法,在满足 XML文档信息无损的情况下,从XML文档中提取信息片段作为虚拟文档;根据XML文档树形 结构的特点提出了同时考虑内容语义和结构语义的相关度计算模型;在此基础上,计算出 虚拟文档中的词项与该虚拟文档之间的语义相关度,最终实现top-k查询算法,提高了检 索的质量和效率。本专利技术解决其技术问题所采用的技术方案包括以下步骤步骤一、以树结构对需XML文档进行预处理,将XML文档中能够满足下面条件的信 息片段看作虚拟文档1 · XML文档中的子树。2.该子树不能是只包含文本节点的子树。3.该子树不能是只包含文本节点和文本节点父节点的子树。 对与每个虚拟文档,根据在文档中的顺序编号。 步骤二、根据相关度计算模型,计算出每个虚拟文档和被该虚拟文档所包含的词 项之间的相关度,并对每个词项建立包含该词项虚拟文档的倒排表,倒排表的顺序按照相 关度的大小由高到底排序。计算虚拟文档和词项相关度的模型结合tf*idf加权技术,具体描述如下权利要求1. 一种,其特征在于包括下述步骤 步骤一、以树结构对需XML文档进行预处理,将XML文档中能够满足下面条件的信息片 段看作虚拟文档DXML文档中的子树;2)该子树不能是只包含文本节点的子树;3)该子树不能是只包含文本节点和文本节点父节点的子树; 对与每个虚拟文档,根据在文档中的顺序编号;步骤二、根据相关度计算模型,计算出每个虚拟文档和被该虚拟文档所包含的词项之 间的相关度,并对每个词项建立包含该词项虚拟文档的倒排表,倒排表的顺序按照相关度 的大小由高到底排序;ln(l + wtf(t, d)) * \n(widf{t, D))虚拟文档和词项的相关度Κ , Ο = _n(d)其中,词项在虚拟文档d中的词频wKG'")= Σ CCdlS{d,m],m代表d所m€m(d ,t)包含一个具体的t,dis(d, m)代表m与d的之间的层次距离,即m与d的根节点之间的距离,α为层次衰减因子,设置为0.8;词项t在虚拟文档集合中的逆向文件频率 fwidf (t,D) = /(0) t,f(D)代表了所有的虚拟文档个数,f (D,t)代表包含了 t的虚拟 J (。") +1文档个数;对查询结果的词频正规化"(句= (1-^ + ^* /(f入、)W) 1 (d)代表虚拟文avgl{D),档d的长度,avgl (D)代表所有虚拟文档的平均长度,s为0.2的常量;f (d)代表d中包含 虚拟文档的个数,λ为0.7;步骤三、在虚拟文档d和关键字查询Q之间的相关度尉= , Jm Er(^d)的基础上实现top-k查询,1/ln (F (Q,d) +1)为输入关键字之间的接近程度,通过d中包含Q 中所有关键字的最小路径个数来表示,具体方法为1)首先顺序访问每个关键字对应的虚拟文档倒排队列,确定阈值,阈值为当前指向倒 排队列的已知相关度和未知相关度得最优值之和;2)判断根据当前访问的虚拟文档是否包含所有关键字,在包含所有关键字的情况下, 将该虚拟文档加入候选结果队列。比较候选结果队列中的虚拟文档相关度值与阈值的大 小,当候选结果相关度大于阈值,输出该候选结果;当输出k个结果时,结束算法;当未能输 出k个结果时,重复1)和幻,继续向下顺序访问虚拟文档倒排队列,根据指向的已知相关度 改变阈值,进而按照2)描述计算新的查询结果。全文摘要本专利技术公开了一种,以树结构对需XML文档进行预处理,将XML文档中能够满足下面条件的信息片段看作虚拟文档;根据相关度计算模型,计算出每个虚拟文档和被该虚拟文档所包含的词项之间的相关度,并对每个词项建立包含该词项虚拟文档的倒排表,倒排表的顺序按照相关度的大小由高到底排序;在虚拟文档d和关键字查询Q之间的相关度的基础上实现top-k查询。本专利技术能够在不计算出所有查询结果的情况下,根据用户的需要提前返回给用户最相关若干查询结果,避免冗余操作,提高了检索的效率和质量。文档编号G06F17/30GK102063474SQ201010598619公开日2011年5月18日 申请日期2010年12月16日 优先权日2010年12月16日专利技术者娄颖, 崔海文, 张利军, 李战怀, 李霞, 陈群 申请人:西北工业大学本文档来自技高网
...

【技术保护点】
一种基于语义相关的XML关键字top-k查询方法,其特征在于包括下述步骤:步骤一、以树结构对需XML文档进行预处理,将XML文档中能够满足下面条件的信息片段看作虚拟文档:1)XML文档中的子树;2)该子树不能是只包含文本节点的子树;3)该子树不能是只包含文本节点和文本节点父节点的子树;对与每个虚拟文档,根据在文档中的顺序编号;步骤二、根据相关度计算模型,计算出每个虚拟文档和被该虚拟文档所包含的词项之间的相关度,并对每个词项建立包含该词项虚拟文档的倒排表,倒排表的顺序按照相关度的大小由高到底排序;虚拟文档和词项的相关度r(t,d)=ln(1+wtf(t,d))*ln(widf(t,D))/n(d)其中,词项在虚拟文档d中的词频wtf(t,d)=*α↑[dis(d,m)],m代表d所包含一个具体的t,dis(d,m)代表m与d的之间的层次距离,即m与d的根节点之间的距离,α为层次衰减因子,设置为0.8;词项t在虚拟文档集合中的逆向文件频率widf(t,D)=f↓[(D)]/(f↑[(D,t)]+1),f(D)代表了所有的虚拟文档个数,f(D,t)代表包含了t的虚拟文档个数;对查询结果的词频正规化n(d)=(1-s+s*l(d)/avgl(D))*f↑[λ](d),l(d)代表虚拟文档d的长度,avgl(D)代表所有虚拟文档的平均长度,s为0.2的常量;f(d)代表d中包含虚拟文档的个数,λ为0.7;步骤三、在虚拟文档d和关键字查询Q之间的相关度R(Q,d)=1/ln(F(Q,d)+1)*r(t,d)的基础上实现top-k查询,1/ln(F(Q,d)+1)为输入关键字之间的接近程度,通过d中包含Q中所有关键字的最小路径个数来表示,具体方法为:1)首先顺序访问每个关键字对应的虚拟文档倒排队列,确定阈值,阈值为当前指向倒排队列的已知相关度和未知相关度得最优值之和;2)判断根据当前访问的虚拟文档是否包含所有关键字,在包含所有关键字的情况下,将该虚拟文档加入候选结果队列。比较候选结果队列中的虚拟文档相关度值与阈值的大小,当候选结果相关度大于阈值,输出该候选结果;当输出k个结果时,结束算法;当未能输出k个结果时,重复1)和2),继续向下顺序访问虚拟文档倒排队列,根据指向的已知相关度改变阈值,进而按照2)描述计算新的查询结果。...

【技术特征摘要】

【专利技术属性】
技术研发人员:娄颖陈群李战怀张利军李霞崔海文
申请(专利权)人:西北工业大学
类型:发明
国别省市:87[中国|西安]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1