信息文档的处理方法及装置制造方法及图纸

技术编号:5162492 阅读:141 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种信息文档的处理方法和装置,所述方法包括:A、将可扩展标记语言XML文档标签信息映射到可由下标访问的XML文档向量模型中;B、依据并行处理策略信息,通过下标访问并处理所述XML文档向量模型的结构元素,其中对于需要并行处理的结构元素采用并行方式进行处理。所述装置用于执行上述方法。利用本发明专利技术,可以加快XML文档返回处理结果的速度,提高软件的执行效率,减少用户等待XML文档处理结果的时间。

【技术实现步骤摘要】

本专利技术涉及计算机数据处理
,尤其涉及一种可扩展标记语言(XML)信息 文档的处理方法及装置。
技术介绍
XML文档是一种用来结构化数据的通用且适应性强的格式文档,目前已经大量应 用在计算机软件工业领域。现有的对XML文档的处理方式中,主要采用针对XML的简单应 用程序编程接口(SAX,Simple API for XML)事件驱动模式,直接在事件触发过程中处理文 档。SAX事件驱动模式的主要处理方式为以一种流线形事件驱动处理方式作用于XML文 档,每遇到一个元素就会触发一个事件,由事件处理器进行处理,并直接在事件处理器中对 文档内容进行处理且返回结果(即直接返回结果)。这种处理方式的优点是事件分析器按 顺序读取XML文档,而不把整个文档读入内存,所以处理速度很快。但是,现有这种处理方式的缺点是从头到尾读取XML文档,必须通过一个个标签 间的连续跳转才能处理下去,是一个不掉的阻塞式处理过程,所以导致整个文档的处理过 程非常漫长,返回结果的速度很慢。当打开一个内容相对多的文档时(例如在TOB网页读 取,办公文档格式读取过程中),程序将被XML文档的解析处理过程所阻塞,必须通过一个 很长的时间才能将文档全部处理完毕,用户等待处理结果的时间很长,严重影响了软件的 执行效率。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种信息文档的处理方法,加快XML文档 返回处理结果的速度,提高计算机软件的执行效率。本专利技术的再一目的在于提供一种信息文档的处理装置,可加快XML文档返回处理 结果的速度,提高计算机软件的执行效率。为达到上述目的,本专利技术的技术方案是这样实现的—种信息文档的处理方法,该方法包括A、将可扩展标记语言XML文档标签信息映射到可由下标访问的XML文档向量模型 中;B、依据并行处理策略信息,通过下标访问并处理所述XML文档向量模型的结构元 素,其中对于需要并行处理的结构元素采用并行方式进行处理。在一种优选实施例中,所述步骤A中,将所述XML文档中的每一个标签所包含的信 息对应映射到XML文档向量模型的一个结构元素中,其中一个标签映射的结构元素包含有 以下内容信息1)当前标签在XML文档中的顺序编号;2)当前标签到包含此标签的父标签顺序编号的距离;3)当前标签包含的子标签个数;4)当前标签的标签名;5)当前标签的属性信息;6)当前标签包含的起始文本内容;7)当前标签包含的结束文本内容。在一种优选实施例中,所述步骤A以基于事件驱动分析处理的方式进行处理,具 体包括以下事件驱动处理过程起始文档事件驱动处理建立或清理一个可以通过下标访问的数据结构作为所述 XML文档向量模型,初始化当前处理标签下标;起始标签事件驱动处理构建一个新标签的结构元素,并对该新结构元素的顺序 编号、该新标签到父标签顺序编号的距离、该新结构元素的标签名称以及属性进行赋值,并 将该新建的结构元素加入到可用下标访问的数据结构中,变更当前处理下标为当前结构元 素的顺序编号;内容处理事件驱动处理判断当前遇到的内容是起始内容还是结束内容,如是起 始内容,将对当前元素结构的起始内容赋值,否则对当前元素结构的结束内容赋值;结束标签事件驱动处理对当前处理结构元素的包含子元素数赋值,并将当前处 理结构元素的父元素下标赋给当前处理标签下标。在一种优选实施例中,所述步骤B具体包括Bi、将所述XML文档向量模型的第一个结构元素作为当前结构元素,构建该结构 元素对应的处理上下文作为当前处理上下文;B2、在当前处理上下文中进行当前结构元素起始阶段的处理;B3、在当前处理上下文中进行当前结构元素起始内容的处理,并为当前子结构元 素下标赋值;B4、判断当前子结构元素下标是否在当前结构元素的子结构元素范围内,如果是 则进入到步骤B9,否则进入到步骤B5 ;B5、在当前处理上下文中进行当前结构元素对应的结束内容的处理;B6、在当前处理上下文中进行当前结构元素对应的结束阶段的处理;B7、判断当前结构元素是否为根结构元素,如果是则结束本流程,否则进入步骤 B8 ;B8、将当前子结构元素下标设为当前结构元素的兄弟结构元素下标,并返回到当 前结构元素的父结构元素的处理上下文中,进入步骤B4 ;B9、依据预设的并行处理策略信息,判断当前结构元素的子结构元素是否可以并 行处理,如果是则进入步骤B10,否则进入步骤B13 ;B10、遍历查找出当前结构元素下所有的互为兄弟关系的子结构元素;B11、对查找出的全部子结构元素采用并行方式进行处理;B12、等待并行处理完所有子结构元素,进入步骤B5 ;B13、将当前处理上下文进行相应的处理,将当前子结构元素作为当前处理结构元 素,并构建当前处理结构元素对应的处理上下文作为当前处理上下文,返回步骤B2。在一种优选实施例中,所述步骤BlO的具体方法包括B401、记录当前子结构元素下标;B402、将当前子结构元素下标设为其下一个兄弟结构元素下标;B403、判断当前子结构元素下标是否在当前结构元素的子结构元素范围内,如果 是则进入到步骤B401,否则执行步骤B404 ;B404、将步骤B401所记录的子结构元素下标判定为可以并行处理的互为兄弟关 系的子结构元素的下标集合,结束本遍历查找流程。在一种优选实施例中,上述步骤Bll中所述对查找出的每个子结构元素的处理具 体包括B41、将步骤BlO中查找到的需要并行处理的一子结构元素下标作为当前子结构 元素下标;B42、将当前子结构元素下标作为当前处理结构元素下标,并构建该结构元素对应 的处理上下文,将该处理上下文作为当前处理上下文;B43、在当前处理上下文中进行当前结构元素起始阶段的处理;B44、在当前处理上下文中进行当前结构元素起始内容的处理,并为当前子结构元 素下标赋值;B45、判断当前子结构元素下标是否在当前结构元素的子结构元素范围内,如果是 则进入到步骤B42,否则进入到步骤B46 ;B46、在当前处理上下文中进行当前结构元素对应的结束内容的处理;B47、在当前处理上下文中进行当前结构元素对应的结束阶段的处理;B48、判断当前结构元素下标是否为所述步骤B41中所述的子结构元素下标,如果 是则结束本流程,否则进入步骤B49 ;B49、将当前子结构元素下标设为当前结构元素的兄弟结构元素下标,并返回到当 前结构元素的父结构元素的处理上下文中,返回步骤45。在一种优选实施例中,步骤B中所述的并行处理策略信息包括为需要并行处理 的标签设置并行处理标识;如果标签具有并行处理标识则判定可并行处理该标签内的互为 兄弟关系的子标签。一种信息文档的处理装置,该装置包括第一模块,用于将可扩展标记语言XML文档标签信息映射到可由下标访问的XML 文档向量模型中;第二模块,用于依据并行处理策略信息,通过下标访问并处理所述XML文档向量 模型的结构元素,其中对于需要并行处理的结构元素采用并行方式进行处理。在一种优选实施例中,所述第一模块具体包括以下事件驱动处理模块起始文档事件驱动处理模块,用于建立或清理一个可以通过下标访问的数据结构 作为所述XML文档向量模型,初始化当前处理标签下标;起始标签事件驱动处理模块,用于构建一个新标签的结构元素,并对该新结构元 素的顺序编号、该新标签到父标签顺序编号的距离、该新结构元本文档来自技高网...

【技术保护点】
一种信息文档的处理方法,其特征在于,该方法包括:A、将可扩展标记语言XML文档标签信息映射到可由下标访问的XML文档向量模型中;B、依据并行处理策略信息,通过下标访问并处理所述XML文档向量模型的结构元素,其中对于需要并行处理的结构元素采用并行方式进行处理。

【技术特征摘要】
1.一种信息文档的处理方法,其特征在于,该方法包括A、将可扩展标记语言XML文档标签信息映射到可由下标访问的XML文档向量模型中;B、依据并行处理策略信息,通过下标访问并处理所述XML文档向量模型的结构元素, 其中对于需要并行处理的结构元素采用并行方式进行处理。2.根据权利要求1所述的方法,其特征在于,所述步骤A中,将所述XML文档中的每一 个标签所包含的信息对应映射到XML文档向量模型的一个结构元素中,其中一个标签映射 的结构元素包含有以下内容信息1)当前标签在XML文档中的顺序编号;2)当前标签到包含此标签的父标签顺序编号的距离;3)当前标签包含的子标签个数;4)当前标签的标签名;5)当前标签的属性信息;6)当前标签包含的起始文本内容;7)当前标签包含的结束文本内容。3.根据权利要求2所述的方法,其特征在于,所述步骤A以基于事件驱动分析处理的方 式进行处理,具体包括以下事件驱动处理过程起始文档事件驱动处理建立或清理一个可以通过下标访问的数据结构作为所述XML 文档向量模型,初始化当前处理标签下标;起始标签事件驱动处理构建一个新标签的结构元素,并对该新结构元素的顺序编号、 该新标签到父标签顺序编号的距离、该新结构元素的标签名称以及属性进行赋值,并将该 新建的结构元素加入到可用下标访问的数据结构中,变更当前处理下标为当前结构元素的 顺序编号;内容处理事件驱动处理判断当前遇到的内容是起始内容还是结束内容,如是起始内 容,将对当前元素结构的起始内容赋值,否则对当前元素结构的结束内容赋值;结束标签事件驱动处理对当前处理结构元素的包含子元素数赋值,并将当前处理结 构元素的父元素下标赋给当前处理标签下标。4.根据权利要求1所述的方法,其特征在于,所述步骤B具体包括Bi、将所述XML文档向量模型的第一个结构元素作为当前结构元素,构建该结构元素 对应的处理上下文作为当前处理上下文;B2、在当前处理上下文中进行当前结构元素起始阶段的处理;B3、在当前处理上下文中进行当前结构元素起始内容的处理,并为当前子结构元素下 标赋值;B4、判断当前子结构元素下标是否在当前结构元素的子结构元素范围内,如果是则进 入到步骤B9,否则进入到步骤B5 ;B5、在当前处理上下文中进行当前结构元素对应的结束内容的处理; B6、在当前处理上下文中进行当前结构元素对应的结束阶段的处理; B7、判断当前结构元素是否为根结构元素,如果是则结束本流程,否则进入步骤B8 ; B8、将当前子结构元素下标设为当前结构元素的兄弟结构元素下标,并返回到当前结 构元素的父结构元素的处理上下文中,进入步骤B4 ;B9、依据预设的并行处理策略信息,判断当前结构元素的子结构元素是否可以并行处 理,如果是则进入步骤B10,否则进入步骤B13 ;B10、遍历查找出当前结构元素下所有的互为兄弟关系的子结构元素; B11、对查找出的全部子结构元素采用并行方式进行处理; B12、等待并行处理完所有子结构元素,进入步骤B5 ;B13、将当前处理上下文进行相应的处理,将当前子结构元素作为当前处理结构元素, 并构建当前处理结构元素对应的处理上下文作为当前处理上下文,返回步骤B2。5.根据权利要求4所述的方法,其特征在于,所述步骤BlO的具体方法包括 B401、记录当前子结构元素下标;B402、将当前子结构元素下标设为其下一个兄弟结构元素下标; B403、判断当前子结构元素下标是否在当前结构元素的子结构元素范围内,如果是则 进入到步骤B401,否则执行步骤B404 ;B404、将步骤B401所记录的子结构元素下标判定为可以并行处理的互为兄弟关系的 子结构元素的下标集合,结束本遍历查找流程。6.根据权利要求4所述的方法,其特征在于,上述步骤Bll中所述对查找出的每个子结 构元素的处理具体包括B41、将步骤BlO中查找到的需要并行处理的一子结构元素下标作为当前子结构元素 下标;B42、将当前子结构元素下标作为当前处理结构元素下标,并构建该结构元素对应的处 理上下文,将该处理上下文作为当前处理上下文;B43、在当前处理上下文中进行当前结构元素起始阶段的处理; B44、在当前处理上下文中进行当前结构元素起始内容的处理,并为当前子结构元素下 标赋值;B45、判断当前子结构元素下标是否在当前结构元素的子结构元素范围内,如果是则进 入到步骤B42,否则进入到步骤B46 ;B46、在当前处理上下文中进行当前结构元素对应的结束内容的处理; B47、在当前处理上下文中进行当前结构元素对应的结束阶段的处理; B48、判断当前结构元素下标是否为所述步骤B41中所述的子结构元素下标,如果是则 结束本流程,否则进入步骤B49 ;B49、将当前子结构元素下标设为当前结构元素的兄弟结构元素下标,并返回到当前结 构元素的父结构元素的处理上下文中,返回步骤45。7.根据权利要求1或4所述的方法,其特征在于,步骤B中所述的并行处理策略信息包 括...

【专利技术属性】
技术研发人员:曾良军李恒
申请(专利权)人:北京红旗中文贰仟软件技术有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利