一种书版小样处理方法及装置制造方法及图纸

技术编号:6958727 阅读:284 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种书版小样处理方法及装置,包括:按照先后顺序从待处理书版小样中获取当前小样元素;其中,小样元素的类型包括文本类型、独立注解类型和关联注解类型;文本类型的小样元素为两个注解之间的且不与关联注解相关联的文本;独立注解类型的小样元素为一个独立注解;关联注解类型的小样元素为一个关联注解和与该关联注解对应的一个表示结束的文本或注解以及两者之间的文本和注解;并创建与该当前小样元素对应的XML对象;以及将创建的XML对象加入到与该待处理书版小样对应的XML对象树中。采用本发明专利技术提供的方法及装置,解决了不能灵活的根据应用需求对书版小样中的特定内容进行再加工处理的问题,且保留了书版小样中信息内容的完整性。

【技术实现步骤摘要】

本专利技术涉及计算机
中的数据排版
,尤其涉及一种书版小样处理方法及装置
技术介绍
书版小样,是指使用特定语言注解信息的文本文件,已经普遍被出版界所编制和使用。书版小样中包含书籍的内容以及书籍的各种版式信息,采用特定语言描述书籍的板式、样式、数学公式、表格等各种对象。目前书版小样多采用专门用以排版的类似HTML 1.0的标记语言进行编写,业界称该语言为BD语言。BD语言由160多个注解组成,每个注解都有自己的功能,指明排版的某些要求,并有确定的作用范围。BD语言每个注解都有一个或多个参数可选择,每个参数对应某个功能。多个注解联合使用,就可以完成比较复杂的版面排版。书版小样文件通常保存的是一本书籍的全部信息,对于编辑等排版领域的工作人员来说,方便对书籍内容以及格式的全面了解。但书版小样偏重描述排版效果,采用的编写语言一般专门用于排版,对于文档的内容逻辑结构没有充分的描述,内容对象之间的关系较弱,结构性较差,并且是文本流型的,所以在除排版外的一些其他使用场合时,例如从中提取感兴趣的数据进行再加工处理,包括转换成网页、幻灯片等其他软件可接受的文档,存入数据库等,从书版小样中获取内容将会变得非常复杂。
技术实现思路
本专利技术实施例提供一种书版小样处理方法及装置,用以解决不能灵活的根据应用需求对书版小样中的特定内容进行再加工处理的问题,且保留书版小样中信息内容的完整性。本专利技术实施例提供一种书版小样处理方法,包括按照先后顺序从待处理书版小样中获取当前小样元素;其中,小样元素的类型包括文本类型、独立注解类型和关联注解类型;文本类型的小样元素为两个注解之间的且不与关联注解相关联的文本;独立注解类型的小样元素为一个独立注解;关联注解类型的小样元素为一个关联注解和与该关联注解对应的一个表示结束的文本或注解以及两者之间的文本和注解;创建与所述当前小样元素对应的XML对象;将创建的所述XML对象加入到与所述待处理书版小样对应的XML对象树中。本专利技术实施例还提供一种书版小样处理装置,包括获取单元,用于按照先后顺序从待处理书版小样中获取当前小样元素;其中,小样元素的类型包括文本类型、独立注解类型和关联注解类型;文本类型的小样元素为两个注解之间的且不与关联注解相关联的文本;独立注解类型的小样元素为一个独立注解;关联注解类型的小样元素为一个关联注解和与该关联注解对应的一个表示结束的文本或注解以及两者之间的文本和注解;第一创建单元,用于创建与所述当前小样元素对应的XML对象;第二创建单元,用于将创建的所述XML对象加入到与所述待处理书版小样对应的 XML对象树中。本专利技术实施例提供的方法中,将书版小样划分为小样元素,并按先后顺序获取小样元素,创建与获取的小样元素对应的XML对象,并将创建的XML对象加入到与该书版小样对应的XML对象树中,即完成了将书版小样转换成XML格式文档,由于XML格式文档的结构化特性,方便从文档中获取特定内容,进而能够灵活的根据应用需求对获取的特定内容进行再加工处理;并且本专利技术实施例中还将小样元素区分为文本类型、独立注解类型和关联注解类型,其中,文本类型的小样元素为两个注解之间的且不与关联注解相关联的文本,独立注解类型的小样元素为一个独立注解,关联注解类型的小样元素为一个关联注解和与该关联注解对应的一个表示结束的文本或注解以及两者之间的文本和注解,通过对小样元素类型的区分,保留了书版小样中各种内容信息的完整性,因此,还方便将处理后获得的XML 格式文档转化回原书版小样。附图说明图1为本专利技术实施例提供的书版小样处理方法的流程图;图2为本专利技术实施例提供的书版小样处理方法中获取当前小样元素的流程图;图3为本专利技术实施例提供的书版小样处理方法中创建与当前小样元素对应的XML 对象的流程图;图4为本专利技术实施例提供的书版小样处理装置的结构示意图。 具体实施例方式为了给出解决不能灵活的根据应用需求对书版小样中的特定内容进行再加工处理的问题的实现方案,本专利技术实施例提供了一种书版小样处理方法及装置,以下结合说明书附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本专利技术实施例提供一种书版小样处理方法,如图1所示,包括步骤S101、按照先后顺序从待处理书版小样中获取当前小样元素。其中,小样元素的类型包括文本类型、独立注解类型和关联注解类型;文本类型的小样元素为两个注解之间的且不与关联注解相关联的文本;独立注解类型的小样元素为一个独立注解;关联注解类型的小样元素为一个关联注解和与该关联注解对应的一个表示结束的文本或注解以及两者之间的文本和注解。步骤S102、创建与该当前小样元素对应的XML对象。步骤S103、将创建的XML对象加入到与该待处理书版小样对应的XML对象树中。下面结合附图,用具体实施例对本专利技术提供的方法及装置进行详细描述。书版小样的内容包括文本和使用BD语言标记的注解,其中,文本为进行排版后在页面中显示的字符内容;注解包括独立注解和关联注解两种,独立注解为注解自身单独即可在排版时起作用的注解,如表示图像的注解;关联注解为与其他文本和/或注解进行组合后共同在排版时起作用的注解,如一个表示表格开始的注解,与其对应的还有一个表示表格结束的注解,为与表格开始注解相关联的注解,表格开始注解与表格结束注解之间的文本和注解也是与表格开始注解相关联的。本专利技术实施例中将书版小样划分为若干个小样元素,并对小样元素的类型进行区分,包括文本类型、独立注解类型和关联注解类型,其中,文本类型的小样元素为两个注解之间的且不与关联注解相关联的文本;独立注解类型的小样元素为一个独立注解;关联注解类型的小样元素为一个关联注解和与该关联注解对应的一个表示结束的文本或注解以及两者之间的文本和注解;具体可以如上述步骤S101,按照先后顺序从待处理书版小样中获取当前小样元素,具体的获取方法可以如图2所示,包括步骤S201、在第一次获取当前小样元素之前,也就是对待处理书版小样进行处理之前,首先将待处理书版小样划分为若干个小样原子,小样原子为书版小样中的一段数据, 类型包括文本类型和注解类型,文本类型的小样原子为两个注解之间的文本,注解类型的小样原子为一个注解,即小样原子为书版小样中不可拆分的最小单元。较佳的,为便于后续处理,对于划分的小样原子可以按照各小样原子在书版小样中的先后顺序标记序号,构建原子序列。步骤S202、在待处理书版小样中获取当前小样原子;初始的当前小样原子为书版小样中的第一个小样原子,即原子序列中序号为1的小样原子。判断获取的该当前小样原子的类型,如果为文本类型,进入步骤S203,否则,进入步骤S204。步骤S203、确定该当前小样原子为当前小样元素,并确定该当前小样元素的类型为文本类型,以及使用当前小样原子的后一个小样原子更新当前小样原子,进入后续步骤 S301。步骤S204、判断该当前小样原子表征的注解为独立注解还是关联注解,如果为独立注解,进入步骤S205、否则,进入步骤S206。具体的判断方法为解析当前小样原子对应的注解字符串,获得表征的注解的注解名称和参数表,根据获得的注解名称和参数表进行判断。步骤S本文档来自技高网...

【技术保护点】
1.一种书版小样处理方法,其特征在于,包括:按照先后顺序从待处理书版小样中获取当前小样元素;其中,小样元素的类型包括文本类型、独立注解类型和关联注解类型;文本类型的小样元素为两个注解之间的且不与关联注解相关联的文本;独立注解类型的小样元素为一个独立注解;关联注解类型的小样元素为一个关联注解和与该关联注解对应的一个表示结束的文本或注解以及两者之间的文本和注解;创建与所述当前小样元素对应的XML对象;将创建的所述XML对象加入到与所述待处理书版小样对应的XML对象树中。

【技术特征摘要】
1.一种书版小样处理方法,其特征在于,包括按照先后顺序从待处理书版小样中获取当前小样元素;其中,小样元素的类型包括文本类型、独立注解类型和关联注解类型;文本类型的小样元素为两个注解之间的且不与关联注解相关联的文本;独立注解类型的小样元素为一个独立注解;关联注解类型的小样元素为一个关联注解和与该关联注解对应的一个表示结束的文本或注解以及两者之间的文本和注解;创建与所述当前小样元素对应的XML对象;将创建的所述XML对象加入到与所述待处理书版小样对应的XML对象树中。2.如权利要求1所述的方法,其特征在于,在按照先后顺序从待处理书版小样中获取当前小样元素之前,还包括将所述待处理书版小样划分为若干个小样原子;其中,小样原子的类型包括文本类型和注解类型;文本类型的小样原子为两个注解之间的文本;注解类型的小样原子为一个注解;按照先后顺序从待处理书版小样中获取当前小样元素,具体包括在所述待处理书版小样中获取当前小样原子;当所述当前小样原子为文本类型时,确定所述当前小样原子为所述当前小样元素,并使用所述当前小样原子的后一个小样原子更新当前小样原子;当所述当前小样原子为注解类型,且表征的注解为独立注解时,确定所述当前小样原子为所述当前小样元素,并使用所述当前小样原子的后一个小样原子更新当前小样原子;当所述当前小样原子为注解类型,且表征的注解为关联注解时,查找表征与该关联注解对应的一个表示结束的文本或注解的对应小样原子,并获取所述当前小样原子和所述对应小样原子以及两者之间的小样原子,作为所述当前小样元素,并使用所述对应小样原子的后一个小样原子更新当前小样原子。3.如权利要求2所述的方法,其特征在于,判断注解类型的所述当前小样原子表征的注解为独立注解或关联注解,具体包括解析所述当前小样原子对应的注解字符串,获得表征的注解的注解名称和参数表;根据获得的注解名称和参数表进行判断。4.如权利要求1所述的方法,其特征在于,创建与所述当前小样元素对应的XML对象, 具体包括当所述当前小样元素为文本类型时,创建与所述当前小样元素对应的XML对象,创建的所述XML对象中记录有所述当前小样元素表征的文本内容;当所述当前小样元素为独立注解类型时,创建与所述当前小样元素对应的XML对象, 创建的所述XML对象中记录有所述当前小样元素表征的注解的注解字符串;当所述当前小样元素为关联注解类型时,根据所述当前小样元素包括的第一个关联注解及对应的一个表示结束的文本或注解,创建与两者对应的XML父对象,并根据所述当前小样元素包括的其他文本和注解,创建所述XML父对象的若干个XML子对象,所述XML子对象为对应一个文本或一个注解创建的,或者为对应一个关联注解及与该关联注解对应的一个表示结束的文本或注解以及两者之间的文本和注解创建的;创建的所述XML父对象和若干个所述XML子对象的组合为与所述当前小样元素对应的XML对象。5.如权利要求1-4任一所述的方法,其特征在于,对于存在不规范的注解字符串的书版小样,通过使用设定的规范的注解字符串替换不规范的注解字符串,将该书版小样转化为所述待处理书版小...

【专利技术属性】
技术研发人员:杨燕菲曹学军缪萍刘婷婷
申请(专利权)人:北大方正集团有限公司北京北大方正电子有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1