一种基于多样性XML文档近似查询方法技术

技术编号:2834145 阅读:267 留言:0更新日期:2012-04-11 18:40
一种基于多样性XML文档近似查询方法,其特征在于:该方法包括XML文档多样性处理,单DTD下XML文档近似查询,查询代价评估和Top-K问题求解四个部分;    XML文档多样性处理模块采用基于PTO模型的映射规则自动生成算法将用户在全局查询模式下提出的原始查询重写为不同DTD下的重写查询树;单DTD下XML文档近似查询模块利用重写查询树,结合基本变异操作,通过对变异查询树的多次精确嵌入实现了单DTD下XML文档集的近似查询;查询代价评估模块采用基于XML样本数据分布统计的方法,计算了每一个查询结果的查询代价;Top-K问题求解模块通过对结点进行区间编码,并借助最优变异查询树的预先估计,最终实现了对多样性XML文档近似查询的Top-K求解。

【技术实现步骤摘要】

本专利技术属于计算机设计与应用
,涉及计算机软件、信息检索技术、半结构化数据处理技术、人工智能技术以及XML描述语言,特别涉及一种基于多样性XML文档的近似查询方法。
技术介绍
近年来,随着XML(Extensible Markup Language)的出现,针对XML文档半结构化数据的查询算法的研究逐渐引起了国内外信息检索领域人们的关注。XML文档具有灵活的表达能力,而这种灵活的表达能力使得不同组织和个人建立的XML文档,难以遵照一个统一的数据模式,即使内容完全相同的文档,不同的组织和个人也很难按照统一的标准来建立结构和标识内容完全相同的XML文档,从而造成了XML文档数据的多样性。如何针对WEB上的大量的多样性的XML数据进行有效的信息提取成为了XML数据管理研究的重要课题。 目前,已有的XML查询方法的研究主要关注单DTD下XML文档集的精确查询和近似查询,解决方法主要采用了以树模型匹配作为理论基础的结构化连接算法等相关技术,并取得了较好的查询效果。而当针对多样性XML文档集时,则效果并不理想。 针对基于多样性XML文档的近似查询方法,申请人经过查新,检索到与本文档来自技高网...

【技术保护点】
一种基于多样性XML文档近似查询方法,其特征在于:该方法包括XML文档多样性处理,单DTD下XML文档近似查询,查询代价评估和Top-K问题求解四个部分;XML文档多样性处理模块采用基于PTO模型的映射规则自动生成算法将用户在全局查询模式下提出的原始查询重写为不同DTD下的重写查询树;单DTD下XML文档近似查询模块利用重写查询树,结合基本变异操作,通过对变异查询树的多次精确嵌入实现了单DTD下XML文档集的近似查询;查询代价评估模块采用基于XML样本数据分布统计的方法,计算了每一个查询结果的查询代价;Top-K问题求解模块通过对结点进行区间编码,并借助最优变异查询树的预先估计,最终实现了对多...

【技术特征摘要】
1.一种基于多样性XML文档近似查询方法,其特征在于该方法包括XML文档多样性处理,单DTD下XML文档近似查询,查询代价评估和Top-K问题求解四个部分;XML文档多样性处理模块采用基于PTO模型的映射规则自动生成算法将用户在全局查询模式下提出的原始查询重写为不同DTD下的重写查询树;单DTD下XML文档近似查询模块利用重写查询树,结合基本变异操作,通过对变异查询树的多次精确嵌入实现了单DTD下XML文档集的近似查询;查询代价评估模块采用基于XML样本数据分布统计的方法,计算了每一个查询结果的查询代价;Top-K问题求解模块通过对结点进行区间编码,并借助最优变异查询树的预先估计,最终实现了对多样性XML文档近似查询的Top-K求解。2.根据权利要求1所述的一种基于多样性XML文档近似查询方法,其特征在于,XML文档多样性处理模块的实现步骤如下1)依据基于本体的全局查询模式,按照面向对象查询语言提出原始查询;2)依据PTO模型(v1,v2)->c1.role,c2.inverse(role)|c3.attribute,按如下步骤建立DTD和全局查询模式之间的映射规则集(1)广度优先遍历DTD树TDTD,抽取TDTD中每条有向边对应的结点v1和v2,若已遍历结束,转步(4);否则,转步(2);(2)查找v1和v2在全局查询模式图G中对应的概念结点v1和v2或属性attribute,若找到,转步(3);否则,把二元组(v1,v2)加入集合Set1中,转步(1);(3)如果找到的是两个概念结点c1和c2,则生成规则(v1,v2)->c’1.role,c’2.inverse(role),转步(1);如果找到的是一个概念结点c1和属性attribute,则生成规则(v1,v2)->c1.attribute,转步(1);(4)对Set1集合中的二元组使用规则(x,y),(y,z)|-(x,z)进行扩展,将新生成的扩展二元组放入集合Set2;(5)遍历集合Set2,抽取其中每一个元组中的结点v1和v2;若已遍历结束,则终止算法;否则,转步(6);(6)查找v1和v2在全局查询模式图G中对应的概念结点c1和c2或属性attribute,若找到,转步(7);否则,转步(5);(7)如果找到的是两个概念结点c1和c2,生成规则(v1,v2)->c’1.role,c’2.inverse(role)转步(5);如果找到的是一个概念结点c1和属性attribute,生成规则(v1,v2)->c1.attribute转步(5);3)利用生成的映射规则集按模式路径,概念和角色逐一映射的方式将原始查询改写为不同DTD下的结构谓词集,并由结构谓词集进一步构成为重写查询树形式。3.根据权利要求1所述的一种基于多样性XML文档近似查询方法,其特征在于,单DTD下XML文档近似查询模块按如下步骤进行实现1)利用重命名结点,删除结点和插入结点这几种基本变异操作组成可能的基本变异操作序列;2)应用基本变异操作序列对重写查询树进行变异,生成变异查询树;3)将变异后得到的所有变异查询树根据其对应的嵌入代价构成查询闭包Q*;4)从查询闭包中取出当前嵌入代价最小的变异查询树对XML文档集中的XML文档树依次进行精确嵌入;5)如果满足精确嵌入条件的结果个数大于或等于用户指定的K个,则K个最优解已形成,查询终止;否则,若查询结果集的个数小于K个,就按嵌入代价由低到高从查询闭包中选取新的变异查询树,接着继续进行精确嵌入,直到符合精确嵌入的结果个数大于等于K个为止。4.根据权利要求1所述的一种基于多样性XML文档近似查询方法,其特征在于,在查询代价评估模块中,采用基于XML样本数据分...

【专利技术属性】
技术研发人员:覃征衡星辰邵利平姜山
申请(专利权)人:西安交通大学
类型:发明
国别省市:87

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1