当前位置: 首页 > 专利查询>集美大学专利>正文

一种XML文档的并行XPath查询方法、终端设备及存储介质技术

技术编号:26791235 阅读:34 留言:0更新日期:2020-12-22 17:06
本发明专利技术涉及一种XML文档的并行XPath查询方法、终端设备及存储介质,该方法中包括:S1:获取输入的XML文档;S2:对XML文档进行解析,并根据解析结果计算基于索引创建的代价估算所需的XML统计信息;S3:根据解析结果和XML统计信息,并行创建XML文档的关系索引;S4:获取输入的XPath查询表达式;S5:将XPath查询表达式转换为查询原语序列;S6:根据创建的关系索引,使用查询原语序列中的每个查询原语按顺序对XML文档进行查询,且每个查询原语内部采用并行查询的方式进行查询;S7:输出最终的查询结果。本发明专利技术采用基于并行效益计算的线程选择策略,该策略以基于XML节点关系数的代价估算为基础,为线程的合理有效利用提供了保证。

【技术实现步骤摘要】
一种XML文档的并行XPath查询方法、终端设备及存储介质
本专利技术涉及XML文档查询领域,尤其涉及一种XML文档的并行XPath查询方法、终端设备及存储介质。
技术介绍
XML作为通用数据交换和存储的标准在各个领域里广为应用,XPath查询是XML数据处理中的关键部分,其性能直接影响到XML的处理能力。近年来随着多核计算环境的普及,充分利用多线程并行计算以获取应用处理性能的提升已成为一种常用的优化设计途径。并行XPath查询技术能为高性能的XML数据处理提供有力支持。并行XPath查询技术一般需要通过特定的代价估算获取查询负载的计算量和并行化开销,据此进行负载划分或并行查询计划的优化选择。由于XML数据的半结构化特点以及XPath查询的复杂性,现有的技术中,代价估算难以准确反映实际的计算量,依照代价进行的负载划分容易造成负载不均衡,导致并行性能受限。此外,由于缺少对线程工作效益评估机制,在较小计算量的情况下,却利用所有可用线程进行并行处理,导致并行化所能获得的效益被过多的线程同步开销抵消。专利技术内容为了解决本文档来自技高网...

【技术保护点】
1.一种XML文档的并行XPath查询方法,其特征在于,包括以下步骤:/nS1:获取输入的XML文档;/nS2:对XML文档进行解析,并根据解析结果计算基于索引创建的代价估算所需的XML统计信息;/nS3:根据解析结果和XML统计信息,并行创建XML文档的关系索引;/nS4:获取输入的XPath查询表达式;/nS5:将XPath查询表达式转换为查询原语序列;/nS6:根据创建的关系索引,使用查询原语序列中的每个查询原语按顺序对XML文档进行查询,且每个查询原语内部采用并行查询的方式进行查询;/nS7:输出最终的查询结果。/n

【技术特征摘要】
1.一种XML文档的并行XPath查询方法,其特征在于,包括以下步骤:
S1:获取输入的XML文档;
S2:对XML文档进行解析,并根据解析结果计算基于索引创建的代价估算所需的XML统计信息;
S3:根据解析结果和XML统计信息,并行创建XML文档的关系索引;
S4:获取输入的XPath查询表达式;
S5:将XPath查询表达式转换为查询原语序列;
S6:根据创建的关系索引,使用查询原语序列中的每个查询原语按顺序对XML文档进行查询,且每个查询原语内部采用并行查询的方式进行查询;
S7:输出最终的查询结果。


2.根据权利要求1所述的XML文档的并行XPath查询方法,其特征在于:XML文档的解析结果为XML节点的区间编码,所需的XML统计信息包括每个根节点所在的子树内根节点的所有子孙节点和孩子节点的总数、根节点的属性节点总数和根节点的非直接属性节点总数。


3.根据权利要求2所述的XML文档的并行XPath查询方法,其特征在于:步骤S3包括以下步骤:
S31:根据XML统计信息进行关系索引创建的总代价估算;
S32:根据关系索引创建的总代价估算结果,将解析的所有区间编码数据划分为数量与可用线程数量相同的区间编码数据块,使得各区间编码数据块之间实现关系索引创建时的计算负载均衡;
S33:针对每个划分后的区间编码数据块分别分配线程后,并行的为区间编码数据块的创建关系索引,最终得到输入的XML文档的关系索引。


4.根据权利要求3所述的XML文档的并行XPath查询方法,其特征在于:总代价估算Cindex的计算公式为:






其中,N表示输入的XML文档中所有的XML节点数;表示节点u的关系数;分别表示以节点u作为根节点的子树内根节点的所有子孙节点和孩子节点的总数、根节点的属性节点总数和根节点的非直接属性节点总数。


5.根据权利要求2所述的XML文档的并行XPath查询方法,其特征在于:并行为区间编码数据块的创建关系索引的方法为:将每个数据块的关系索引创建设定为一个计算任务,针对每个计算任务获得一个工作线程,采用同步计数器进行数据并行同步。


6.根据权利要求1所述的XML文档的并行XPath查询方法,其特征在于:步骤S6包括以下步骤:
S61:针对查询顺序中的每一步对应的查询原语,根据XML统计信息和...

【专利技术属性】
技术研发人员:陈荣鑫王智谨
申请(专利权)人:集美大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1