【技术实现步骤摘要】
本专利技术涉及印刷领域,具体而言,涉及ー种拆分文档的方法和装置。
技术介绍
图书通常由主书名页、文前辅文、正文、文中辅文和文后辅文这几个部分組成。其中,正文由篇、章和节组成。通过对图书数字化处理,可将图书以电子文档的形式保存。在图书出版前,需要对图书进行編纂。由于图书是由多个部分组成,在编纂过程中,可将各个部分由不同的作者編纂。例如,将含有一本图书内容的文档进行拆分,拆分为三个文档,再将三个文档交给三个不同的作者处理,如审校、修改或排版等。目前对文档进行拆分的过程,采用人工的方式进行拆分。这种拆分方式存在效率低、时间长的问题,影响了图书的出版时间。
技术实现思路
本专利技术g在提供一种拆分文档的方法和装置,以解决上述人工拆分文档效率低、时间长的问题。在本专利技术的实施例中,提供了一种拆分文档的方法,包括解析出原始文档的xml格式的内容文件和段落样式文件;在所述内容文件中,查找应用所述段落样式文件中的每个段落样式的段落位置;将所述查找到的各个段落位置处的段落内容分别输出到不同的新文档中。在本专利技术的实施例中,提供了一种拆分文档的装置,包括解析模块,用于解析出原始文档 ...
【技术保护点】
一种拆分文档的方法,其特征在于,包括:解析出原始文档的xml格式的内容文件和段落样式文件;在所述内容文件中,查找应用所述段落样式文件中的每个段落样式的段落位置;将所述查找到的各个段落位置处的段落内容分别输出到不同的新文档中。
【技术特征摘要】
1.一种拆分文档的方法,其特征在于,包括 解析出原始文档的xml格式的内容文件和段落样式文件; 在所述内容文件中,查找应用所述段落样式文件中的每个段落样式的段落位置; 将所述查找到的各个段落位置处的段落内容分别输出到不同的新文档中。2.根据权利要求I所述的方法,其特征在于,所述查找的过程包括 在所述内容文件中遍历所述段落样式文件中的每个段落样式所对应的段落样式ID ;查找当前的所述段落样式ID在所述内容文件中所对应的所有标识段落的段落标记作为所述段落位置; 为所述段落标记排序并记录序号。3.根据权利要求2所述的方法,其特征在于,所述输出的过程包括 创建所述不同的新文档; 将所述记录的序号与所述不同的新文档的标识建立关联关系; 所述序号包括起始序号和结束序号; 在所述内容文件中提取所述起始序号和结束序号之间的段落内容,存储到对应的所述新文档中。4.根据权利要求3所述的方法,其特征在于,还包括 建立含有所述原始文档的段落样式的结构的大纲文件,其中,所述大纲文件为xml格式,其节点的名称来自所述段落样式文件中各个段落样式的名称; 将所述建立的关联关系作为属性值存储在所述各个节点中。5.根据权利要求4所述的方法,其特征在于,所述建立含有文档的段落样式的结构的大纲文件包括 预先通过schema文件生成树形实例文件;其中,所述schema文件定义了构成所述原始文档的各个元素的之间的结构关系,将所述元素的名称作为所述实例文件的节点的名称;在所述段落样式文件中查找到与所述段落样式ID对应的段落样式的名称; 使用所述查找的段落样式的名称,遍历所述实例文件中具有相同名称的节点; 采用遍历到的节点构建所述大纲文件。6.一种拆分文档的装置,其特征在于,包括 解析模块,用于解析出原始文档的xml格式的内容文件和段落样式文件;...
【专利技术属性】
技术研发人员:岳永强,
申请(专利权)人:北大方正集团有限公司,北京北大方正电子有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。