【技术实现步骤摘要】
一种基于关键字的XML检索排序处理系统及方法
本专利技术涉及一种基于关键字的XML检索排序处理系统及方法,属于信息检索和XML数据管理领域,主要应用于对XML数据库查询和对查询结果进行数据处理。
技术介绍
关键字检索方式提供给用户友好、便捷的方式检索XML文档,用户只需提交关键字,无需掌握数据的模式信息,也不需要学习复杂的查询语法。针对WWW上的网页、办公文档等非结构化数据,Google、百度、Bing等搜索引擎提供了关键字检索功能,能够帮助用户在海量Web数据中快速获取所需信息,已成为目前最受普通用户欢迎的互联网信息获取方式。XML已成为Web上表示和交换数据的标准格式,各个领域不断涌现出大量的XML数据。如何有效检索满足用户意向的XML数据,已经成为当前数据库与信息检索领域中的研究热点。XML关键字检索方式,无需用户掌握查询语法与数据模式,仅提交关键字即可获取查询结果,深受普通用户欢迎。与传统信息检索中的关键字检索不同,XML关键字检索的目标不是整个XML文档,而是满足关键字条件的XML数据片段。如何根据关键字,快速、准确返回粒度适中且符合用户查询意向的XML ...
【技术保护点】
一种基于关键字的XML检索排序处理系统,其特征在于:包括基本语义节点单元筛选模块、文档语义分割模块、关键字检索模块、单元结构分析模块、语义加权模块和结果筛选模块;其中:基本语义节点单元筛选模块:将需要查找关键字的XML文档数据库,抽象为G=(V,E,r,A),G为XML文档对应的XML数据树,其中V表示G中所有节点的集合,E表示G中所有边的集合,r表示G的根节点,A是所有节点所带标签的集合;对G中的节点进行分析,计算G中每一个节点的规模数和包含的属性类型数,基于G中的节点的规模数和节点的属性类型数以及节点的标签,把XML数据树的节点以同样标签进行整合,统计同标签节点的平均规 ...
【技术特征摘要】
1.一种基于关键字的XML检索排序处理系统,其特征在于:包括基本语义节点单元筛选模块、文档语义分割模块、关键字检索模块、单元结构分析模块、语义加权模块和结果筛选模块;其中:基本语义节点单元筛选模块:将需要查找关键字的XML文档数据库,抽象为G=(V,E,r,A),G为XML文档对应的XML数据树,其中V表示G中所有节点的集合,E表示G中所有边的集合,r表示G的根节点,A是所有节点所带标签的集合;对G中的节点进行分析,计算G中每一个节点的规模数和包含的属性类型数,基于G中的节点的规模数和节点的属性类型数以及节点的标签,把XML数据树的节点以同样标签进行整合,统计同标签节点的平均规模数表和同标签节点的平均属性类型数表,根据节点平均规模数表和节点平均属性类型数表设定节点平均属性类型数阈值下界和节点平均规模数阈值下界,在节点平均规模数表和节点平均属性类型表中同时高于两个阈值下界的节点即为基本语义节点,得到基本语义节点集合,将基本语义节点集合存放在结果文件中,供文档语义分割模块调用;文档语义分割模块:对XML文档数据库以基本语义节点集合为基础进文档语义分割,以结果文件中的基本语义节点为中心,对XML数据树中的其他节点进行分析归类,对基本语义节点的临近节点进行优先归类分析,继而分析临近节点的临近节点,分割XML数据树,每一个分割后的XML数据集合即是一个以基本语义节点为中心的基本语义单元,整理每个基本语义单元,即得到基本语义单元集合,把基本语义单元集合输出至关键字检索模块;关键字检索模块:给定W={ωi|i=1,...,k}为待查询关键字组成的关键字集合,其中ωi为待查询关键字,i代表第i个关键字,关键字一共有k个,按照W中的顺序取关键字,选取一个关键字对基本语义单元集合进行倒排索引,得到回答某一关键字的基本语义单元集合,遍历W中所有关键字,得到包含全部关键字的基本语义单元集合,把能够回答所有关键字的基本语义单元集合按照关键字顺序存入临时结果文件传给单元结构分析模块;单元结构分析模块:接收关键字检索模块中的临时结果文件,遍历基本语义单元集合,每一个元素均为一个以基本语义节点为中心的基本语义单元,取一个基本语义单元,以其基本语义节点为中心,保留返回的关键字节点和基本语义节点与关键字路径上的节点,删除其余节点,得到基本语义节点和关键字节点之间的小枝结构关系,对基本语义单元集合中每一个元素都进行此操作,得到每一个基本语义单元中基本语义节点与关键字之间的结构关系集合,将集合储存在临时结果文件中传送给语义加权模块;语义加权模块:遍历临时结果文件中的基本语义节点与关键字之间的结构关系集合,分析集合中每一个元素的重要性,对元素中结构树的每一个节点进行加权计算,并将每一个结构树加权计算的结果存入数组中,并把语义重要性加权数组传递至结果筛选模块;结果筛选模块:接收语义加权模块输入的语义重要性加权数组,对语义重要性加权数组进行排序操作,对结构关系的重要性程度按照从大到小的顺序排列,数组中排位越靠前,即为结构关系最严格,最为符合用户检索意图,输入用户所需检索结果的个数,根据用户的需求,对已经排序完成的数组按数组顺序输出符合用户指定个数的检索XML基本语义单元,即为用户所求的检索结果。2.根据权利要求1所述基于关键字的XML检索排序处理系统,其特征在于:所述基本语义节点单元筛选模块实现过程如下:(1)对XML标签有向树中所有节点进行遍历,对各节点进行编码,设节点v为XML数据树中的一个节点,则对v进行区间编码,编码格式为<prev,level,size>,其中prev为先序编码,level为节点v在该XML文档中所属层数,size为节点v的后裔节点数,即得到节点的规模数值;(2)根据遍历后的节点编码结果计算各节点的平均属性类型数和节点平均规模数,其中节点平均属性类型数为该类型节点的子节点的属性类型数除以该类型节点的节点数,节点平均规模数为该类型节点的平均规模数除以该类型节点的节点数,得到该XML文档节点的平均属性类型数表和平均节点规模数表;(3)根据得到的平均属性类型数表和节点平均规模数表,设定平均属性类型数阈值下界和节点的平均规模数阈值下界,并根据阈值下界对两个表中的数据进行筛选,得到大于平均属性类型数阈值下界的节点集合和大于平均规模数阈值下界节点的集合;对两个集合的节点取交集,如果交集中有连接节点则去掉连接节点;(4)取交集生成的集合即为此XML文档的基本语义节点集合。3.根据权利要求1所述基于关键字的XML检索排序处理系统,其特征在于:所述文档语义分割模块实现过程如下:(1)读取基本语义节点集合,取其中一个节点p,获取以p为中心的基本语义单元;(2)节点p为根的子树为ST(p),如果节点p的后裔节点中存在其他基本语义节点,断开其他基本语义节点与ST(p)树的父子关系边,得到子树ST`(p);(3)已知节点p的编号路径,若节点p的祖先节点中存在其他基本语义节点,则连接其他基本语言节点到节点p的编号路径上的所有节点到ST`(p)得到ST``(p),若节点p的祖先节点中不存在其他基本语义节点,则连接根节点到节点p上的所有节点到ST`(p)得到ST``(p),则ST...
【专利技术属性】
技术研发人员:解凯,叶宇姍,曾庆涛,河南南,
申请(专利权)人:北京印刷学院,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。