【技术实现步骤摘要】
本专利技术涉及计算机
中的数据排版
,尤其涉及一种书版小样处理方法及装置。
技术介绍
书版小样,是指使用特定语言注解信息的文本文件,已经普遍被出版界所编制和使用。书版小样中包含书籍的内容以及书籍的各种版式信息,采用特定语言描述书籍的板式、样式、数学公式、表格等各种对象。目前书版小样多采用专门用以排版的类似HTML 1.0的标记语言进行编写,业界称该语言为BD语言。BD语言由160多个注解组成,每个注解都有自己的功能,指明排版的某些要求,并有确定的作用范围。BD语言每个注解都有一个或多个参数可选择,每个参数对应某个功能。多个注解联合使用,就可以完成比较复杂的版面排版。书版小样文件通常保存的是一本书籍的全部信息,对于编辑等排版领域的工作人员来说,方便对书籍内容以及格式的全面了解。但书版小样偏重描述排版效果,采用的编写语言一般专门用于排版,对于文档的内容逻辑结构没有充分的描述,内容对象之间的关系较弱,结构性较差,并且是文本流型的,所以在除排版外的一些其他使用场合时,例如从中提取感兴趣的数据进行再加工处理,包括转换成网页、幻灯片等其他软件可接受的文档,存入数据库等,从书版小样中获取内容将会变得非常复杂。
技术实现思路
本专利技术实施例提供一种书版小样处理方法及装置,用以解决不能灵活的根据应用需求对书版小样中的特定内容进行再加工处理的问题,且保留书版小样中信息内容的完整性。本专利技术实施例提供一种书版小样处理方法,包括按照先后顺序从待处理书版小样中获取当前小样元素;其中,小样元素的类型包括文本类型、独立注解类型和关联注解类型;文本类型的小样元素为两个注解之 ...
【技术保护点】
1.一种书版小样处理方法,其特征在于,包括:按照先后顺序从待处理书版小样中获取当前小样元素;其中,小样元素的类型包括文本类型、独立注解类型和关联注解类型;文本类型的小样元素为两个注解之间的且不与关联注解相关联的文本;独立注解类型的小样元素为一个独立注解;关联注解类型的小样元素为一个关联注解和与该关联注解对应的一个表示结束的文本或注解以及两者之间的文本和注解;创建与所述当前小样元素对应的XML对象;将创建的所述XML对象加入到与所述待处理书版小样对应的XML对象树中。
【技术特征摘要】
1.一种书版小样处理方法,其特征在于,包括按照先后顺序从待处理书版小样中获取当前小样元素;其中,小样元素的类型包括文本类型、独立注解类型和关联注解类型;文本类型的小样元素为两个注解之间的且不与关联注解相关联的文本;独立注解类型的小样元素为一个独立注解;关联注解类型的小样元素为一个关联注解和与该关联注解对应的一个表示结束的文本或注解以及两者之间的文本和注解;创建与所述当前小样元素对应的XML对象;将创建的所述XML对象加入到与所述待处理书版小样对应的XML对象树中。2.如权利要求1所述的方法,其特征在于,在按照先后顺序从待处理书版小样中获取当前小样元素之前,还包括将所述待处理书版小样划分为若干个小样原子;其中,小样原子的类型包括文本类型和注解类型;文本类型的小样原子为两个注解之间的文本;注解类型的小样原子为一个注解;按照先后顺序从待处理书版小样中获取当前小样元素,具体包括在所述待处理书版小样中获取当前小样原子;当所述当前小样原子为文本类型时,确定所述当前小样原子为所述当前小样元素,并使用所述当前小样原子的后一个小样原子更新当前小样原子;当所述当前小样原子为注解类型,且表征的注解为独立注解时,确定所述当前小样原子为所述当前小样元素,并使用所述当前小样原子的后一个小样原子更新当前小样原子;当所述当前小样原子为注解类型,且表征的注解为关联注解时,查找表征与该关联注解对应的一个表示结束的文本或注解的对应小样原子,并获取所述当前小样原子和所述对应小样原子以及两者之间的小样原子,作为所述当前小样元素,并使用所述对应小样原子的后一个小样原子更新当前小样原子。3.如权利要求2所述的方法,其特征在于,判断注解类型的所述当前小样原子表征的注解为独立注解或关联注解,具体包括解析所述当前小样原子对应的注解字符串,获得表征的注解的注解名称和参数表;根据获得的注解名称和参数表进行判断。4.如权利要求1所述的方法,其特征在于,创建与所述当前小样元素对应的XML对象, 具体包括当所述当前小样元素为文本类型时,创建与所述当前小样元素对应的XML对象,创建的所述XML对象中记录有所述当前小样元素表征的文本内容;当所述当前小样元素为独立注解类型时,创建与所述当前小样元素对应的XML对象, 创建的所述XML对象中记录有所述当前小样元素表征的注解的注解字符串;当所述当前小样元素为关联注解类型时,根据所述当前小样元素包括的第一个关联注解及对应的一个表示结束的文本或注解,创建与两者对应的XML父对象,并根据所述当前小样元素包括的其他文本和注解,创建所述XML父对象的若干个XML子对象,所述XML子对象为对应一个文本或一个注解创建的,或者为对应一个关联注解及与该关联注解对应的一个表示结束的文本或注解以及两者之间的文本和注解创建的;创建的所述XML父对象和若干个所述XML子对象的组合为与所述当前小样元素对应的XML对象。5.如权利要求1-4任一所述的方法,其特征在于,对于存在不规范的注解字符串的书版小样,通过使用设定的规范的注解字符串替换不规范的注解字符串,将该书版小样转化为所述待处理书版小...
【专利技术属性】
技术研发人员:杨燕菲,曹学军,缪萍,刘婷婷,
申请(专利权)人:北大方正集团有限公司,北京北大方正电子有限公司,
类型:发明
国别省市:11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。