信息文档的处理方法及装置制造方法及图纸

技术编号:5162497 阅读:195 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种信息文档的处理方法和装置,所述方法包括:A、将可扩展标记语言(XML)文档标签信息映射到可由下标访问的XML文档向量模型中;B、依据滞后处理策略信息,通过下标访问并处理所述XML文档向量模型的结构元素,其中对于需要滞后处理的信息暂不处理,记录该滞后处理信息的下标;C、根据步骤B中记录的需要滞后处理信息的下标,访问并处理所述XML文档向量模型中对应的结构元素。所述装置用于执行上述方法。利用本发明专利技术,可以加快XML文档返回处理结果的速度,提高软件的执行效率,减少用户等待XML文档处理结果的时间。

【技术实现步骤摘要】

本专利技术涉及计算机数据处理
,尤其涉及一种可扩展标记语言(XML)信息 文档的处理方法及装置。
技术介绍
XML文档是一种用来结构化数据的通用且适应性强的格式文档,目前已经大量应 用在计算机软件工业领域。现有的对XML文档的处理方式中,主要采用针对XML的简单应 用程序编程接口(SAX,Simple API for XML)事件驱动模式,直接在事件触发过程中处理文 档。SAX事件驱动模式的主要处理方式为以一种流线形事件驱动处理方式作用于XML文 档,每遇到一个元素就会触发一个事件,由事件处理器进行处理,并直接在事件处理器中对 文档内容进行处理且返回结果(即直接返回结果)。这种处理方式的优点是事件分析器按 顺序读取XML文档,而不把整个文档读入内存,所以处理速度很快。但是,现有这种处理方式的缺点是从头到尾读取XML文档,必须通过一个个标签 间的连续跳转才能处理下去,是一个不掉的阻塞式处理过程,所以导致整个文档的处理过 程非常漫长,返回结果的速度很慢。当打开一个内容相对多的文档时(例如在TOB网页读 取,办公文档格式读取过程中),程序将被XML文档的解析处理过程所阻塞,必须通过一个 很长的时间才能将文档全部处理完毕,用户等待处理结果的时间很长,严重影响了软件的 执行效率。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种信息文档的处理方法,加快XML文档 返回处理结果的速度,提高计算机软件的执行效率。本专利技术的再一目的在于提供一种信息文档的处理装置,可加快XML文档返回处理 结果的速度,提高计算机软件的执行效率。为达到上述目的,本专利技术的技术方案是这样实现的—种信息文档的处理方法,该方法包括A、将可扩展标记语言XML文档标签信息映射到可由下标访问的XML文档向量模型 中;B、依据滞后处理策略信息,通过下标访问并处理所述XML文档向量模型的结构元 素,其中对于需要滞后处理的信息暂不处理,记录该滞后处理信息的下标;C、根据步骤B中记录的需要滞后处理信息的下标,访问并处理所述XML文档向量 模型中对应的结构元素。 在一种优选实施例中,所述步骤A中,将所述XML文档中的每一个标签所包含的信 息对应映射到XML文档向量模型的一个结构元素中,其中一个标签映射的结构元素包含有 以下内容信息 1)当前标签在XML文档中的顺序编号;2)当前标签到包含此标签的父标签顺序编号的距离;3)当前标签包含的子标签个数;4)当前标签的标签名;5)当前标签的属性信息;6)当前标签包含的起始文本内容;7)当前标签包含的结束文本内容。在一种优选实施例中,所述步骤A以基于事件驱动分析处理的方式进行处理,具 体包括以下事件驱动处理过程起始文档事件驱动处理建立或清理一个可以通过下标访问的数据结构作为所述 XML文档向量模型,初始化当前处理标签下标;起始标签事件驱动处理构建一个新标签的结构元素,并对该新结构元素的顺序 编号、该新标签到父标签顺序编号的距离、该新结构元素的标签名称以及属性进行赋值,并 将该新建的结构元素加入到可用下标访问的数据结构中,变更当前处理下标为当前结构元 素的顺序编号;内容处理事件驱动处理判断当前遇到的内容是起始内容还是结束内容,如是起 始内容,将对当前元素结构的起始内容赋值,否则对当前元素结构的结束内容赋值;结束标签事件驱动处理对当前处理结构元素的包含子元素数赋值,并将当前处 理结构元素的父元素下标赋给当前处理标签下标。在一种优选实施例中,所述步骤B具体包括Bi、将所述XML文档向量模型的第一个结构元素作为当前结构元素,构建该结构 元素对应的处理上下文作为当前处理上下文;B2、在当前处理上下文中进行当前结构元素起始阶段的处理;B3、在当前处理上下文中进行当前结构元素起始内容的处理,并为当前子结构元 素下标赋值;B4、判断当前子结构元素下标是否在当前结构元素的子结构元素范围内,如果是 则进入到步骤B9,否则进入到步骤B5 ;B5、在当前处理上下文中进行当前结构元素对应的结束内容的处理;B6、在当前处理上下文中进行当前结构元素对应的结束阶段的处理;B7、判断当前结构元素是否为根结构元素,如果是则结束本流程,否则进入步骤 B8 ;B8、将当前子结构元素下标设为当前结构元素的兄弟结构元素下标,并返回到当 前结构元素的父结构元素的处理上下文中,进入步骤B4 ;B9、依据预设的处理策略信息,判断当前子结构元素是否可以滞后处理,如果是则 进入步骤B10,否则进入步骤Bll ;B10、记录当前子结构元素下标的值,之后将当前子结构元素下标改为下一子结构 元素位置,进入步骤B4;B11、将当前处理上下文进行相应的处理,将当前子结构元素作为当前处理结构元 素,并构建当前处理结构元素对应的处理上下文作为当前处理上下文,返回步骤B2。在一种优选实施例中,步骤B中所述的滞后处理策略信息包括判断当前处理的信息是否为后继处理过程中的必须项,如果不是必须项,且不是同等级信息中的首项,则可 滞后处理。在一种优选实施例中,所述步骤C中,针对每个所记录的滞后处理信息,分别执行 如下步骤Cl、将所记录的滞后处理信息的下标作为当前子结构元素下标,将该子结构元素 对应父结构的处理上下文作为当前处理上下文;C2、将当前的子结构元素下标作为当前结构元素下标,并构建该结构元素对应的 处理上下文作为当前处理上下文;C3、在当前处理上下文中进行当前结构元素起始阶段的处理;C4、在当前处理上下文中进行当前结构元素起始内容的处理,并为当前子结构元 素下标赋值;C5、判断当前子结构元素下标是否在当前结构元素的子结构元素范围内,如果是 则进入到步骤C2,否则进入到步骤C6 ;C6、在当前处理上下文中进行当前结构元素对应的结束内容的处理;C7、在当前处理上下文中进行当前结构元素对应的结束阶段的处理;C8、判断当前结构元素下标是否为步骤Cl所述的滞后处理信息的下标;如果是则 结束本流程。否则进入步骤C9;C9、将当前子结构元素下标设为当前结构元素的兄弟结构元素下标,并返回到当 前结构元素的父结构元素的处理上下文中,返回步骤C5。在一种优选实施例中,所述步骤B中,对于可滞后处理的信息,进一步记录该滞后 处理信息的父结构的处理上下文信息,并在步骤C中直接利用所记录的上下文信息处理对 应的结构元素。一种信息文档的处理装置,该装置包括第一模块,用于将可扩展标记语言XML文档标签信息映射到可由下标访问的XML 文档向量模型中;第二模块,用于依据滞后处理策略信息,通过下标访问并处理所述XML文档向量 模型的结构元素,其中对于需要滞后处理的信息暂不处理,记录该滞后处理信息的下标;第三模块,用于根据第二模块中记录的需要滞后处理信息的下标,访问并处理所 述XML文档向量模型中对应的结构元素。在一种优选实施例中,所述第一模块具体包括以下事件驱动处理模块起始文档事件驱动处理模块,用于建立或清理一个可以通过下标访问的数据结构 作为所述XML文档向量模型,初始化当前处理标签下标;起始标签事件驱动处理模块,用于构建一个新标签的结构元素,并对该新结构元 素的顺序编号、该新标签到父标签顺序编号的距离、该新结构元素的标签名称以及属性进 行赋值,并将该新建的结构元素加入到可用下标访问的数据结构中,变更当前处理下本文档来自技高网...

【技术保护点】
一种信息文档的处理方法,其特征在于,该方法包括:A、将可扩展标记语言XML文档标签信息映射到可由下标访问的XML文档向量模型中;B、依据滞后处理策略信息,通过下标访问并处理所述XML文档向量模型的结构元素,其中对于需要滞后处理的信息暂不处理,记录该滞后处理信息的下标;C、根据步骤B中记录的需要滞后处理信息的下标,访问并处理所述XML文档向量模型中对应的结构元素。

【技术特征摘要】
1.一种信息文档的处理方法,其特征在于,该方法包括A、将可扩展标记语言XML文档标签信息映射到可由下标访问的XML文档向量模型中;B、依据滞后处理策略信息,通过下标访问并处理所述XML文档向量模型的结构元素, 其中对于需要滞后处理的信息暂不处理,记录该滞后处理信息的下标;C、根据步骤B中记录的需要滞后处理信息的下标,访问并处理所述XML文档向量模型 中对应的结构元素。2.根据权利要求1所述的方法,其特征在于,所述步骤A中,将所述XML文档中的每一 个标签所包含的信息对应映射到XML文档向量模型的一个结构元素中,其中一个标签映射 的结构元素包含有以下内容信息1)当前标签在XML文档中的顺序编号;2)当前标签到包含此标签的父标签顺序编号的距离;3)当前标签包含的子标签个数;4)当前标签的标签名;5)当前标签的属性信息;6)当前标签包含的起始文本内容;7)当前标签包含的结束文本内容。3.根据权利要求2所述的方法,其特征在于,所述步骤A以基于事件驱动分析处理的方 式进行处理,具体包括以下事件驱动处理过程起始文档事件驱动处理建立或清理一个可以通过下标访问的数据结构作为所述XML 文档向量模型,初始化当前处理标签下标;起始标签事件驱动处理构建一个新标签的结构元素,并对该新结构元素的顺序编号、 该新标签到父标签顺序编号的距离、该新结构元素的标签名称以及属性进行赋值,并将该 新建的结构元素加入到可用下标访问的数据结构中,变更当前处理下标为当前结构元素的 顺序编号;内容处理事件驱动处理判断当前遇到的内容是起始内容还是结束内容,如是起始内 容,将对当前元素结构的起始内容赋值,否则对当前元素结构的结束内容赋值;结束标签事件驱动处理对当前处理结构元素的包含子元素数赋值,并将当前处理结 构元素的父元素下标赋给当前处理标签下标。4.根据权利要求1所述的方法,其特征在于,所述步骤B具体包括Bi、将所述XML文档向量模型的第一个结构元素作为当前结构元素,构建该结构元素 对应的处理上下文作为当前处理上下文;B2、在当前处理上下文中进行当前结构元素起始阶段的处理;B3、在当前处理上下文中进行当前结构元素起始内容的处理,并为当前子结构元素下 标赋值;B4、判断当前子结构元素下标是否在当前结构元素的子结构元素范围内,如果是则进 入到步骤B9,否则进入到步骤B5 ;B5、在当前处理上下文中进行当前结构元素对应的结束内容的处理;B6、在当前处理上下文中进行当前结构元素对应的结束阶段的处理;B7、判断当前结构元素是否为根结构元素,如果是则结束本流程,否则进入步骤B8 ;B8、将当前子结构元素下标设为当前结构元素的兄弟结构元素下标,并返回到当前结 构元素的父结构元素的处理上下文中,进入步骤B4 ;B9、依据预设的处理策略信息,判断当前子结构元素是否可以滞后处理,如果是则进入 步骤B10,否则进入步骤Bll ;B10、记录当前子结构元素下标的值,之后将当前子结构元素下标的值改为下一子结构 元素位置,进入步骤B4;B11、将当前处理上下文进行相应的处理,将当前子结构元素作为当前处理结构元素, 并构建当前处理结构元素对应的处理上下文作为当前处理上下文,返回步骤B2。5.根据权利要求1或4所述的方法,其特征在于,步骤B中所述的滞后处理策略信息包 括判断当前处理的信息是否为后继处理过程中的必须项,如果不是必须项,且不是同等级 信息中的首项,则可滞后处理。6.根据权利要求1所述的方法,其特征在于,所述步骤C中,针对每个所记录的滞后处 理信息,分别执行如下步骤Cl、将所记录的滞后处理信息的下标作为当前子结构元素下标,将该子结构元素对应 父结构的处理上下文作为当前处理上下文;C2、将当前的子结构元素下标作为当前结构元素下标,并构建该结构元素对应的处理 上下文作为当前处理上下文;C3、在当前处理上下文中进行当前结构元素起始阶段的处理; C4、在当前处理上下文中进行当前结构元素起始内容的处理,并为当前子结构元素下 标赋值;C5、判断当前子结构元素下标是否在当前结构元素的子结构元素范围内,如果是则进 入到步骤C2,否则进入到步骤C6 ;C6、在当前处理上下文中进行当前结构元素对应的结束内容的处理; C7、在当前处理上下文中进行当前结构元素对应的结束阶段的处理; C8、判断当前结构元素下标是否为步骤Cl所述的滞后处理信息的下标;如果是则结束 本流程。否则进入步骤C9;C9、将当前子结构元素下标设为当前结构元素的兄弟结构元素下标,并返回到...

【专利技术属性】
技术研发人员:曾良军李恒
申请(专利权)人:北京红旗中文贰仟软件技术有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1