一种解析Word文件信息的方法及其系统技术方案

技术编号:4099701 阅读:220 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种解析Word文件信息的方法及其系统,该方法包括:将待解析的Word文件转换为Word_XML2003格式文档的中间文件;解析Word_XML2003格式文档中元素的基本信息,并将解析得到的信息按照Word的规则进行组合;将解析组合后的对象写入XML文件。由于采用了Word_XML2003格式文档作为中间文件,并在解析Word_XML2003格式文档后按照Word的规则进行组合,不仅在解析比较复杂的元素时不会造成属性丢失,而且还避免了频繁的调用Com接口,节约了系统资源,高效稳定地解析了所有格式的Word文件信息,特别适合满足需要批量解析各种版本的Word文件信息的情况下使用。

【技术实现步骤摘要】

本专利技术涉及可读取、解析Word文件信息的系统领域,更具体的说,改进涉及的是 一种解析Word文件信息的方法及其系统。
技术介绍
Microsoft Word是微软公司的一个文字处理应用程序,在办公自动化中, Microsoft Word得到了越来越多的应用。然而,在自动化办公应用非常广泛的今天,经常需 要读取并甄别有用信息,如何成批、快速的实现对Word文档的解析,将直接影响到人们的 办公效率。目前业界经常使用的解析Word文件的方法大致有以下几种方案一、通过调用MS-Word的自动化Com接口,按照Word的文档结构对Word文件 信息进行解析。方案二、通过调用一些较为成熟的开源文档编辑软件的接口,实现对Word文件信 息的解析,较流行的是调用OpenOffice的API接口来实现读取和解析。方案三、由于Word2007文件已公开格式,所以可以直接对Word2007格式文件进行 解析。但是,对于方案一而言,每解析一个Word元素就需要一次Com调用,所以解析过程 的效率和稳定性较低;另外,当解析的属性Word对象没有设置值的时候,如果继续解析,会 造成程序挂掉,因此直接影响程序的稳定性。对于方案二而言,由于Open-Office等开源软件对doc格式的文档支持并不完美, 所以当解析一些比较复杂的元素时,会出现属性丢失的情况。对于方案三而言,此种方法仅能支持docx文档;由于doc文件的格式并没有公开, 所以此方法无法解析Word2003格式文件和Word2000格式文件,对Word文件的版本支持不完全。因此,现有技术尚有待改进和发展。
技术实现思路
本专利技术的目的在于,提供一种解析Word文件信息的方法及其系统,可高效稳定地 解析所有格式的Word文件信息,适合批量解析各种版本的Word文件信息。本专利技术的技术方案如下一种解析Word文件信息的方法,其中,包括以下步骤将待解析的Word文件转换为Word_XML2003格式文档的中间文件;解析Word_XML2003格式文档中元素的基本信息,并将解析得到的信息按照Word 的规则进行组合;将解析组合后的对象写入XML文件。所述的解析Word文件信息的方法,其中,在转换为Word_XML2003格式文档的步骤中,具体包括以下步骤初始化Word对象;通过Word实例对象创建一个Word文档对象;将Word对象设置为后台运行;使用文档对象导入一个Word文件;将Word格式文档另存为XML2003格式文档。所述的解析Word文件信息的方法,其中,在解析Word_XML2003格式文档的步骤 中,对于文本信息,还包括先读取文本,后按照段落为基本单位将文档分为若干个段落节点 的操作。所述的解析Word文件信息的方法,其中,在解析Word_XML2003格式文档的步骤 中,对于图元信息,还包括在图元字段按照直线、椭圆、矩形的图元不同的枚举值得到图元 的起始坐标和区域的操作。所述的解析Word文件信息的方法,其中,在解析Word_XML2003格式文档的步骤 中,对于图像信息,还包括先在binData读出图片的文件流,后利用图片库将该图片流写出 的操作。所述的解析Word文件信息的方法,其中,在按照Word的规则进行组合的步骤中, 对于文本,还包括以下操作将解析Word_XML2003格式文档得到的基本段落信息按照节为单位进行分组;将节中的文本按照栏为单位进行进一步划分。所述的解析Word文件信息的方法,其中,在按照Word的规则进行组合的步骤中, 对于图元,还包括以下操作根据图元所在的段位于的节,判断该图元的节号;将该图元设置为该节的背景元素。所述的解析Word文件信息的方法,其中,在按照Word的规则进行组合的步骤中, 对于图像,还包括以下操作根据图像所在的段位于的节,判断该图像的节号;将该图像设置为该节的背景元素。一种解析Word文件信息的系统,其中包括依次数据连接的XML2003文件转换模 块、解析排版模块和XML文件写入模块,其中XML2003文件转换模块,用于将待解析的Word文件转换为Word_XML2003格式文档 的中间文件;解析排版模块,用于解析Word_XML2003格式文档中元素的基本信息,并将解析得 到的信息按照Word的规则进行组合;XML文件写入模块,用于将解析组合后的对象写入XML文件。所述的解析Word文件信息的系统,其中,XML2003文件转换模块包括依次数据连 接的初始化单元、文档创建单元、设置单元、导入单元和生成单元,其中初始化单元,用于初始化Word对象;文档创建单元,用于通过Word实例对象创建一个Word文档对象;设置单元,用于将Word对象设置为后台运行;导入单元,用于使用文档对象导入一个Word文件;生成单元,用于将Word格式文档另存为XML2003格式文档。本专利技术所提供的一种解析Word文件信息的方法及其系统,由于采用了 Word_ XML2003格式文档作为中间文件,并在解析Word_XML2003格式文档后按照Word的规则进行 组合,不仅在解析比较复杂的元素时不会造成属性丢失,而且还避免了频繁的调用Com接 口,节约了系统资源,从而高效稳定地解析了所有格式的Word文件信息,特别适合满足需 要批量解析各种版本的Word文件信息的情况下使用。附图说明图1是本专利技术解析Word文件信息方法的流程图;图2是本专利技术解析Word文件信息系统的结构图;图3是本专利技术中XML2003文件转换模块的结构图;图4是本专利技术中将Word文件转换为Word_XML2003格式文档的流程图;图5是本专利技术中解析XML2003元素以及整体排版的流程图。具体实施例方式以下将结合附图,对本专利技术的具体实施方式和实施例加以详细说明,所描述的具 体实施例仅用以解释本专利技术,并非用于限定本专利技术的具体实施方式。本专利技术的一种解析Word文件信息的方法,其具体实施方式之一,如附图1所示,包 括以下步骤步骤S100、将待解析的Word文件转换为Word_XML2003格式文档的中间文件;步骤S200、解析Word_XML2003格式文档中元素的基本信息,并将解析得到的信息 按照Word的规则进行组合;步骤S300、将解析组合后的对象写入XML (Extensible MarkupLanguage,可扩展标 记语言)文件。基于上述解析方法,本专利技术还提出了一种解析Word文件信息的系统,如附图2所 示,至少包括依次数据连接的XML2003文件转换模块100、解析排版模块200和XML文件写 入模块300,其中XML2003文件转换模块100,用于将待解析的Word文件转换为Word_XML2003格式 文档的中间文件;解析排版模块200,用于解析Word_XML2003格式文档中元素的基本信息,并将解 析得到的信息按照Word的规则进行组合;XML文件写入模块300,用于将解析组合后的对象写入XML文件。Word的XML2003文件是一种可以记录Word元素的XML文件,由于此文件支持Word 所有元素的显示,而且可以被Word文件打开。基于这个原因,可以考虑以XML2003文件作 为中间文件进行Word文件信息解析的策略。可先用Word的自动化Com接本文档来自技高网...

【技术保护点】
一种解析Word文件信息的方法,其特征在于,包括以下步骤:  将待解析的Word文件转换为Word_XML2003格式文档的中间文件;解析Word_XML2003格式文档中元素的基本信息,并将解析得到的信息按照Word的规则进行组合;  将解析组合后的对象写入XML文件。

【技术特征摘要】
一种解析Word文件信息的方法,其特征在于,包括以下步骤将待解析的Word文件转换为Word_XML2003格式文档的中间文件;解析Word_XML2003格式文档中元素的基本信息,并将解析得到的信息按照Word的规则进行组合;将解析组合后的对象写入XML文件。2.根据权利要求1所述的解析Word文件信息的方法,其特征在于,在转换为Word_ XML2003格式文档的步骤中,具体包括以下步骤初始化Word对象;通过Word实例对象创建一个Word文档对象; 将Word对象设置为后台运行; 使用文档对象导入一个Word文件; 将Word格式文档另存为XML2003格式文档。3.根据权利要求1所述的解析Word文件信息的方法,其特征在于,在解析Word_ XML2003格式文档的步骤中,对于文本信息,还包括先读取文本,后按照段落为基本单位将 文档分为若干个段落节点的操作。4.根据权利要求1所述的解析Word文件信息的方法,其特征在于,在解析Word_ XML2003格式文档的步骤中,对于图元信息,还包括在图元字段按照直线、椭圆、矩形的图元 不同的枚举值得到图元的起始坐标和区域的操作。5.根据权利要求1所述的解析Word文件信息的方法,其特征在于,在解析Word_ XML2003格式文档的步骤中,对于图像信息,还包括先在binData读出图片的文件流,后利 用图片库将该图片流写出的操作。6.根据权利要求1所述的解析Word文件信息的方法,其特征在于,在按照Word的规则 进行组合的步骤中,对于文本,还包括以下操作将解析Word_XML2...

【专利技术属性】
技术研发人员:解辉
申请(专利权)人:深圳市万兴软件有限公司
类型:发明
国别省市:94[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1