本发明专利技术提供了一种拆分文档的方法和装置,其方法包括:解析出原始文档的xml格式的内容文件和段落样式文件;在所述内容文件中,查找应用所述段落样式文件中的每个段落样式的段落位置;将所述查找到的各个段落位置处的段落内容分别输出到不同的新文档中。本发明专利技术提供了一种拆分文档的装置。本发明专利技术的实施例通过解析原始文档的内容文件和段落样式文件,通过段落样式文件中段落样式对内容文件中的内容进行拆分,提取出的内容存储到新的文档中。所以克服了人工直接从文档中提取内容,拆分成新的文档效率较低的问题,达到了高效、快捷的效果。
【技术实现步骤摘要】
本专利技术涉及印刷领域,具体而言,涉及ー种拆分文档的方法和装置。
技术介绍
图书通常由主书名页、文前辅文、正文、文中辅文和文后辅文这几个部分組成。其中,正文由篇、章和节组成。通过对图书数字化处理,可将图书以电子文档的形式保存。在图书出版前,需要对图书进行編纂。由于图书是由多个部分组成,在编纂过程中,可将各个部分由不同的作者編纂。例如,将含有一本图书内容的文档进行拆分,拆分为三个文档,再将三个文档交给三个不同的作者处理,如审校、修改或排版等。目前对文档进行拆分的过程,采用人工的方式进行拆分。这种拆分方式存在效率低、时间长的问题,影响了图书的出版时间。
技术实现思路
本专利技术g在提供一种拆分文档的方法和装置,以解决上述人工拆分文档效率低、时间长的问题。在本专利技术的实施例中,提供了一种拆分文档的方法,包括解析出原始文档的xml格式的内容文件和段落样式文件;在所述内容文件中,查找应用所述段落样式文件中的每个段落样式的段落位置;将所述查找到的各个段落位置处的段落内容分别输出到不同的新文档中。在本专利技术的实施例中,提供了一种拆分文档的装置,包括解析模块,用于解析出原始文档的xml格式的内容文件和段落样式文件;查找模块,用于在所述内容文件中,查找应用所述段落样式文件中的每个段落样式的段落位置;拆分模块,用于将所述查找到的各个段落位置处的段落内容分别输出到不同的新文档中。本专利技术的实施例通过解析原始文档的内容文件和段落样式文件,通过段落样式文件中段落样式对内容文件中的内容进行拆分,提取出的内容存储到新的文档中。所以克服了人工直接从文档中提取内容,拆分成新的文档效率较低的问题,达到了高效、快捷的效果O附图说明此处所说明的附图用来提供对本专利技术的进ー步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中图I示出了本专利技术实施例一的流程图;图2示出了本专利技术实施例ニ的流程图;图3示出了本专利技术实施例中所显示的内容文件的屏幕截图;图4示出了本专利技术实施例中所显示的段落样式文件的屏幕截图;图5示出了本专利技术实施例三的流程图6示出了本专利技术实施例中所显示的实例文件的屏幕截图;图7示出了本专利技术实施例中所显示的大纲文件的屏幕截图;图8示出了本专利技术实施例四的装置结构框图。具体实施例方式下面将參考附图并结合实施例,来详细说明本专利技术。參见图1,实施例一包括以下步骤步骤Sll :解析出原始文档的xml格式的内容文件和段落样式文件。原始文档是由多个文件组成,至少包括记录原始文档中存储的字数数据的xml格式的内容文件,规定字符数据显示的段落结构样式存储在xml格式的段落样式文件中。如word格式的文档,通过压缩/解压算法,可提取出xml格式的内容文件和段落样式文件。·步骤S12 :在所述内容文件中,查找应用所述段落样式文件中的每个段落样式的段落位置。步骤S13 :将所述查找到的各个段落位置处的段落内容分别输出到不同的新文档中。通过在内容文件中按照各个段落样式查找的段落位置,将原始文档分为各个不同的新的文档。由于不同的段落样式体现了文档的结构,通过段落样式拆分文档,可将原始文档规范的拆分为多个文档,且处理时间短,效率高。各个不同的新文档采用不同的段落样式结构,以便于后续的处理、編纂。在内容文件中查找段落样式文件中的各个段落样式、以及输出文档的过程,可有多种不同的方式,下面给出优选的方式并通过实施例ニ说明,參见图2,包括以下步骤S21 :解析出原始文档的xml格式的内容文件和段落样式文件。S22 :在所述内容文件中遍历所述段落样式文件中的每个段落样式所对应的段落样式ID。内容文件存在的段落样式ID与段落样式文件中的段落样式具有对应关系。參见图3、图4所示的内容文件、段落样式文件的屏幕截图,图3中所示的ID为〈W :P style w:val =“1”/>,说明段落样式ID为“1”,该段落样式ID对应图4中的段落样式名称为“章标题”的段落样式。參见图4的屏幕截图上所示的命令參数<w style w type = “paragraph” w :styleid = “I”/>,<w name w val = “章标题”/>该命令參数为段落样式ID为“1”,段落样式的名称为“章标題”。通过这种对应关系,可在内容文件中找到对应段落样式文件中各个段落样式的段落样式ID。S23 :查找当前的所述段落样式ID在所述内容文件中所对应的所有标识段落的段落标记作为所述段落位置。在内容文件中找到段落样式ID后,可查找到应用该段落样式ID所对应的段落样式的各个段落。參见图3,遍历与段落样式ID为“I”对应的段落标记〈w :p>,统计遍历到的段落标记数量。S24:为所述段落标记排序并记录序号。在内容文件中,会有多个段落样式ID,每个段落样式ID又分别与段落标记相对应,为这些段落标记排序并记录序号后,可区别出应用不同段落样式的各个段落。序号包括起始序号和结束序号,例如在内容文件中应用段落样式名称为“章标题”的段落样式共有5段,对应的起始序号为3,结束序号为7。S25 :将所述记录的序号与所述不同的新文档的标识建立关联关系。创建新文档,将记录的起始序号、结束序号与新文档的标识建立关联关系。S26 :在所述内容文件中提取所述起始序号和结束序号之间的段落内容,存储到对应的所述新文档中。在本实施例中,将起始序号为3、结束序号为7之间的段落的内容存储到新的文档中。 通过上述的过程,将内容文件中应用各个不同段落样式的各个段落的内容,存储到相应的各个不同的新文档中。为便于对内容文件和段落样式文件进行处理,本专利技术的实施例还创建用于存储原始文档的段落样式的结构的大纲文件。大纲文件采用xml格式,其每个节点对应ー种段落样式,将为每个段落样式ID记录的序号与不同的新文档的标识建立关联关系,并存储到大纲文件的相应节点内。使用大纲文件,按照记录的序号,从内容文件中提取各个段落的内容存储到相关联的文档内。下面通过实施例三详细说明,參见图5,包括以下步骤S31 :预先通过schema文件生成树形实例文件;schema文件定义了构成原始文档的各个元素的之间的结构关系,将元素的名称作为所述实例文件的节点的名称。通过schema文件,可定义多种不同段落样式结构的多个原始文档。如在其中ー个原始文档中的“章标题”的段落样式下添加“节标题”的段落样式;在另ー个原始文档的“正文”段落样式下添加“文前辅文”的段落样式。由于各个原始文档的各个元素之间的结构关系,都是通过schema文件定义,通过schema文件生成的实例文件,包含最全的文档的段落样式的结构关系,这些结构关系通过文档的各个元素之间的关系体现。实例文件的体现各个段落样式之间结构的屏幕截图可參见图6。S32 :在所述段落样式文件中查找到与段落样式ID对应的段落样式的名称。原始文档的段落样式文件中包括多个段落样式,每个段落样式的名称也存在于段落样式文件中,如图4中的段落样式名称“章标題”。S33:使用所述查找的段落样式的名称,遍历所述实例文件中具有相同名称的节点,采用遍历到的节点构建所述大纲文件。原始文档通过schema文件定义生成的,通schema文件生成的实施文件的各个节点的名称包括原始本文档来自技高网...
【技术保护点】
一种拆分文档的方法,其特征在于,包括:解析出原始文档的xml格式的内容文件和段落样式文件;在所述内容文件中,查找应用所述段落样式文件中的每个段落样式的段落位置;将所述查找到的各个段落位置处的段落内容分别输出到不同的新文档中。
【技术特征摘要】
1.一种拆分文档的方法,其特征在于,包括 解析出原始文档的xml格式的内容文件和段落样式文件; 在所述内容文件中,查找应用所述段落样式文件中的每个段落样式的段落位置; 将所述查找到的各个段落位置处的段落内容分别输出到不同的新文档中。2.根据权利要求I所述的方法,其特征在于,所述查找的过程包括 在所述内容文件中遍历所述段落样式文件中的每个段落样式所对应的段落样式ID ;查找当前的所述段落样式ID在所述内容文件中所对应的所有标识段落的段落标记作为所述段落位置; 为所述段落标记排序并记录序号。3.根据权利要求2所述的方法,其特征在于,所述输出的过程包括 创建所述不同的新文档; 将所述记录的序号与所述不同的新文档的标识建立关联关系; 所述序号包括起始序号和结束序号; 在所述内容文件中提取所述起始序号和结束序号之间的段落内容,存储到对应的所述新文档中。4.根据权利要求3所述的方法,其特征在于,还包括 建立含有所述原始文档的段落样式的结构的大纲文件,其中,所述大纲文件为xml格式,其节点的名称来自所述段落样式文件中各个段落样式的名称; 将所述建立的关联关系作为属性值存储在所述各个节点中。5.根据权利要求4所述的方法,其特征在于,所述建立含有文档的段落样式的结构的大纲文件包括 预先通过schema文件生成树形实例文件;其中,所述schema文件定义了构成所述原始文档的各个元素的之间的结构关系,将所述元素的名称作为所述实例文件的节点的名称;在所述段落样式文件中查找到与所述段落样式ID对应的段落样式的名称; 使用所述查找的段落样式的名称,遍历所述实例文件中具有相同名称的节点; 采用遍历到的节点构建所述大纲文件。6.一种拆分文档的装置,其特征在于,包括 解析模块,用于解析出原始文档的xml格式的内容文件和段落样式文件;...
【专利技术属性】
技术研发人员:岳永强,
申请(专利权)人:北大方正集团有限公司,北京北大方正电子有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。