【技术实现步骤摘要】
一种基于MapReduce的分布式XSLT处理方法及处理系统
[0001]本专利技术涉及数据处理
,具体涉及一种基于MapReduce的分布式XSLT处理方法及处理系统。
技术介绍
[0002]可扩展标记语言(Extensible Markup Language,缩写为XML),是一套定义语义标记的规则,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。XML在Internet上面已经被广泛应用于数据交换,同时它也是一种存储应用程序数据的常用格式(比如字处理,音乐库等)。在很多情况下,当使用XML来仅仅存储数据的时候,对应的文档结构非常紧凑并且直观。
[0003]目前,可扩展标记语言(XML)广泛应用于多种领域,如Web服务和语义Web,它已经成为事实上的数据交换和表示标准。为了实现XML数据文件的自动转换和提取,W3C提出并推荐了可扩展样式语言转换技术(Extensible Stylesheet Language Transformations,缩写为XSLT)。可扩展样式语言转 ...
【技术保护点】
【技术特征摘要】
1.一种基于MapReduce的分布式XSLT处理方法,其特征在于,包括如下步骤:S1、获取待处理的XML数据文件和XSLT规则样式表文件;S2、提取XML数据文件中各个数据节点信息,得到XML数据节点信息集,记为A
‑
Box数据集;提取XSLT规则样式表文件中的各类转换模板规则,分别为每个类别的转换模板规则创建一个模板规则文件N
‑
XSLT,得到模板规则数据集,记为T
‑
Box数据集;S3、采用MapReduce框架对A
‑
Box数据集中的各个数据节点进行批量归类整理,将每个类别的数据节点分别归类为一个数据节点子集N
‑
XML;S4、采用MapReduce框架分别对每个数据节点子集N
‑
XML与各个模板规则文件N
‑
XSLT进行模板规则匹配;S5、采用MapReduce框架分别对每个数据节点子集N
‑
XML中的各个XML数据节点按照相匹配的模板规则文件N
‑
XSLT所指示的转换模板规则进行批量的XSLT转换处理,从而完成对XML数据文件的分布式XSLT转换处理。2.根据权利要求1所述的基于MapReduce的分布式XSLT处理方法,其特征在于,步骤S2中,对提取得到的XML数据文件中各个数据节点信息,是经过键值描述处理后再存入A
‑
Box数据集中,其中的键值属性信息包括节点名、节点位置信息和节点类型信息,且每个数据节点信息用于映射指示XML数据文件中相应的一个数据节点。3.根据权利要求2所述的基于MapReduce的分布式XSLT处理方法,其特征在于,步骤S2中,为每个类别的转换模板规则所创建的模板规则文件N
‑
XSLT,是映射指示相应类别的转换模板规则的键值描述文件,且其中的键值属性信息包括文件名、模板规则序列号和节点匹配属性。4.根据权利要求3所述的基于MapReduce的分布式XSLT处理方法,其特征在于,步骤S3包括:S301、预先采用MapReduce框架建立XML数据节点类别映射Map函数和XML数据节点类别归约Reduce函数;S302、将A
‑
Box数据集中的每个数据节点信息分别作为XML数据节点类别映射Map函数的输入,通过XML数据节点类别映射Map函数搜索具有相同节点类型的各个数据节点,将搜索结果存入第一临时文件temp1中;S303、XML数据节点类别映射Map函数的搜索结果作为XML数据节点类别归约Reduce函数的输入,通过XML数据节点类别归约Reduce函数将每个类别的数据节点分别归类为一个数据节点子集N
‑
XML,并将归约结果存入第二临时文件temp2中;S304、将入第一临时文件temp1和第二临时文件temp2中存储的数据均上传到分布式文件系统进行存储。5.根据权利要求4所述的基于MapReduce的分布式XSLT处理方法,其特征在于,步骤S4包括:S401、预先采用MapReduce框架建立模板规则匹配映射Map函数和模板规则匹配归约Reduce函数;S402、获取各个数据节点子集N
‑
XML和各个...
【专利技术属性】
技术研发人员:李韧,罗梦婷,杨建喜,蒋仕新,刘新龙,王笛,杨祥立,
申请(专利权)人:重庆交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。