XML文档节点的构建方法和装置制造方法及图纸

技术编号:11155724 阅读:94 留言:0更新日期:2015-03-18 11:59
本发明专利技术提供一种XML文档节点的构建方法和装置,该方法包括:在添加文档时根据标签信息数据表检查文档中的标签;当文档中存在标签信息数据表中的指定标签时,在构建文档的文档节点时忽略指定标签。本发明专利技术通过添加XML文档时,在XML文档中不影响XML文档结构和不丢失信息的情况下,对用户指定的标签进行忽略,使得处理后的XML文档具有结构清晰,冗余信息少,节点层级简洁等优点,同时也提高系统的存储效率,提高了文档加载效率。

【技术实现步骤摘要】

本专利技术数据库的文档存储领域,尤其涉及一种数据库的文档节点的构建方法和装置。
技术介绍
XML数据库管理系统(XMLDBMS)是近年快速发展的一种新型的数据库管理系统(DBMS),它存储和检索的数据是XML文档。在XMLDBMS中存储XML文档的实体称为容器(Container),一个容器中存储任意个XML文档。容器由若干个数据表构成,数据表分别存储XML文档各个方面的数据和结构信息,包括节点数据,节点间关系,节点路径数据,索引,统计信息等。数据表存储的单位是数据行,一个数据表中含有若干个数据行,特定的数据行通过索引快速查找。XML文档内容被作为节点数据存储在一个节点表中,节点表中存储元素节点和文档节点。文档节点存储一个XML文档的元数据信息,而文档的内容则存储在这个文档的所有的元素节点中。现有的XMLDBMS系统在向数据库中添加文档时,会根据XML文档结构将XML文档转换成上述的节点类型进行存储。而在现实应用中,XML文档节点的文档包含大量的说明性标签。例如:对于office word文件转成XML文档后,其对应的XML文档中存在着大量的格式控制标签。这些标签在进行存储时同样需要生成大量的节点,造成节点的路径数据表中的数据大量增加,XML文档结构复杂,节点之间的层级关系复杂。
技术实现思路
本专利技术提出一种,以解决现有技术中文档结构复杂、存储开销大的技术问题。本专利技术的实施例提供一种XML文档节点的构建方法,该方法包括:在添加文档时根据标签信息数据表检查文档中的标签;当文档中存在标签信息数据表中的指定标签时,在构建文档的文档节点时忽略指定标签。标签信息数据表包括指定标签的标签名称和对应标签名称的索引。在添加文档时根据标签信息数据表检查文档中的标签的步骤包括:解析文档得到节点的标签元素,包括起始符号、标签名称和结束符号;以标签名称为键值查询标签信息数据表。在构建文档的文档节点时忽略指定标签的步骤包括:当查询到标签信息数据表中存在标签名称时,忽略标签元素;当节点存在文档内容时,将文档内容作为文档节点合并到上一级节点的文档节点中。该方法还可以包括根据用户指示从标签信息数据表中添加或删除标签信息。具体可以包括提取用户指示中的操作参数,操作参数包括第一参数和第二参数;当操作参数为第一参数时,个体化添加或删除标签信息;当操作参数为第二参数时,批量化添加或删除标签信息。该方法还可以包括:设置查询指定标签选项,以供用户开启或关闭根据标签信息数据表检查文档中的标签。本专利技术实施例还提供一种XML文档节点的构建装置,该装置包括:检查单元,用于在添加文档时根据标签信息数据表检查文档中的标签;构建单元,用于当文档中存在标签信息数据表中的指定标签时,在构建文档的文档节点时忽略指定标签。标签信息数据表包括指定标签的标签名称和对应标签名称的索引。检查单元包括:解析模块,用于解析文档得到的节点的标签元素,包括起始符号、标签名称和结束符号;查询模块,用于以标签名称为键值查询标签信息数据表。构建单元包括:忽略模块,用于当查询到标签信息数据表中存在标签名称时,忽略标签元素;合并模块,用于当节点存在文档内容时,将文档内容作为文档节点合并到上一级节点的文档节点中。该装置还可以包括:添加/删除单元,用于根据用户指示在标签信息数据表中添加或删除标签信息。添加/删除单元包括:提取模块,用于提取用户指示中的操作参数,操作参数包括第一参数和第二参数;第一添加/删除模块,用于当操作参数为第一参数时,个体化添加或删除标签信息;第二添加/删除模块,用于当操作参数为第二参数时,批量化添加或删除标签信息。该装置还可以包括:选项单元,用于设置查询指定标签选项,以供用户开启或关闭根据标签信息数据表检查文档中的标签。本专利技术实施例通过添加XML文档时,在XML文档中不影响XML文档结构和不丢失信息的情况下,对用户指定的标签进行忽略,使得处理后的XML文档具有结构清晰,冗余信息少,节点层级简洁等优点,同时也提高系统的存储效率,提高了文档加载效率。附图说明本专利技术的专利技术构思将在下面通过结合附图详细说明和介绍,其中附图包括:图1是本专利技术实施例一提供的XML文档节点的构建方法的流程图;图2是本专利技术实施例二提供的XML文档节点的构建装置的结构示意图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,本部分描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。实施例一本实施例提供一种XML文档节点的构建方法,应用于XML数据库,XML数据库以节点表的形式存储XML文档,节点表包括元素节点和文档节点。如图1所示,该方法包括:步骤S110:在添加文档时根据标签信息数据表检查文档中的标签;系统为数据库建立忽略标签信息数据表(Ignored Tag Table)。该数据表记录标签名称,同时考虑到检索该数据表时的效率可在标签名称上建立索引。在该步骤中,解析文档得到节点的标签元素,如起始符号、标签名称和结束符号等,应当理解的是,上述的标签元素仅仅是举例,并不是穷举;以标签名称为键值查询标签信息数据表。步骤S120:当文档中存在标签信息数据表中的指定标签时,在构建文档的文档节点时忽略指定标签。在该步骤中,当查询到标签信息数据表中存在标签名称时,忽略标签元素;当节点存在文档内容时,将文档内容作为文档节点合并到上一级节点的文档节点中。本实施例在实际应用中,将XML文档添加到XMLDBMS时,XML解析器会首先对用户所要添加的XML文档进行解析。XML解析器遇到一个起始符号”<”时,XML解析器标识为节点的开始。此时XML解析器请求读取下一个单词,读取出标签名称作为节点名称。以获得的标签名称为键值查询忽略标签信息数据表,如果系统在该数据表中发现该标签名称为用户要忽略的标签时,XML解析器继续读取下一个符号,直到该遇到该节点的结束符号“>”。然后抛弃起始符号、标签名称和结束符号。XML解析器继续解析XML文档其余部分。若该节点存在着文本内容,将其合并到上一级节点的文档节点中。下面针对用户指定忽略P,footnote的标签时情况下,以添加如下XML文档(Format.xml)为例具体说明本实施例的文档构建方法。XML解析器在读取到XML元素<p>后,使用p在忽略标签信息数据表中进行查询。由于p是用户所指定的需要忽略本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201310412413.html" title="XML文档节点的构建方法和装置原文来自X技术">XML文档节点的构建方法和装置</a>

【技术保护点】
一种XML文档节点的构建方法,其特征在于,该方法包括:在添加文档时根据所述标签信息数据表检查文档中的标签;当文档中存在所述标签信息数据表中的指定标签时,在构建所述文档的文档节点时忽略所述指定标签。

【技术特征摘要】
1.一种XML文档节点的构建方法,其特征在于,该方法包括:
在添加文档时根据所述标签信息数据表检查文档中的标签;
当文档中存在所述标签信息数据表中的指定标签时,在构建所述文档的文
档节点时忽略所述指定标签。
2.根据权利要求1所述的XML文档节点的构建方法,其特征在于:
所述标签信息数据表包括指定标签的标签名称和对应所述标签名称的索
引。
3.根据权利要求1所述的XML文档节点的构建方法,其特征在于:
在添加文档时根据所述标签信息数据表检查文档中的标签的步骤包括:
解析文档得到节点的标签元素,包括起始符号、标签名称和结束符号;
以所述标签名称为键值查询所述标签信息数据表;
在构建所述文档的文档节点时忽略所述指定标签的步骤包括:
当查询到所述标签信息数据表中存在所述标签名称时,忽略所述标签元
素;
当所述节点存在文档内容时,将所述文档内容作为文档节点合并到上一级
节点的文档节点中。
4.根据权利要求3所述的XML文档节点的构建方法,其特征在于,还
包括:
根据用户指示从所述标签信息数据表中添加或删除标签信息。
5.根据权利要求3所述的XML文档节点的构建方法,其特征在于,根
据用户指示从所述标签信息数据表中添加或删除标签信息的步骤包括:
提取所述用户指示中的操作参数,所述操作参数包括第一参数和第二参
数;
当所述操作参数为第一参数时,个体化添加或删除标签信息;
当所述操作参数为第二参数时,批量化添加或删除标签信息。
6.根据权利要求1所述的XML文档节点的构建方法,其特征在于,还
包括:
设置查询指定标签选项,以供用户开启或关闭根据所述标签信息数据表检
查文档中的标签。
7.一种XML文档节点的构建装置,其特征在于,该装置包括:

【专利技术属性】
技术研发人员:李浩彭川邓光超陈丽娟
申请(专利权)人:方正信息产业控股有限公司上海方正数字出版技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1