【技术实现步骤摘要】
一种流式文档的处理方法及装置
本专利技术涉及文档转换领域,尤其涉及一种流式文档的处理方法及装置。
技术介绍
首先对本专利技术涉及的术语名词进行介绍:版式文档:是一种独立于软件、硬件、操作系统、呈现/打印设备的文档,例如pdf,cebx等格式的版式文档。一个版式文档可以包含多个页面,每个页面由与设备和分辨率无关的若干的图元(即版面对象,页面上呈现内容的最基本单元,如文本、图形、图像、表格、多媒体等类型图元,也包括基于这些基本图元组合而成的复合图元)组成。版式文档的常见基本特性:原版原式呈现(文本图像等内容及其位置大小、色彩等版式信息在不同平台软硬件上呈现/打印显示效果一致);文档内容等数据的结构化描述(无论采用XML还是二进制描述方式,其文档格式都具有结构化特征);交互性(动画,多媒体,执行动作动等);安全性(数字签名等)等。近年来也增添了许多新特性:多样化互联网应用(线性化边下载边阅读、“一次出版,多平台应用,多途径传播”等);移动阅读灯设备自适应性(要求原版原式的版式文档能在手机等各种大小不一的设备中自动调整文档内容的呈现,如同办公软件等流式文档天然具备自适应特点)等。流式文档:如Office文档,它描述的不是排版后生成的具有版面呈现所需要的所有数据的文档(即版式文档),其相关(流式)数据通常不具有固定位置大小等版面信息,每次加载文档时需要类似流水线式的对这些数据从头到尾进行重新排版计算得到相关位置信息,然后才能呈现出来。结构化信息:关于文档(流式、版式等类型)的逻辑结构的信息,包括文章、节、段落等逻辑结构,以及显示样式信息。结构化信息可用于实现版面内容 ...
【技术保护点】
一种流式文档的处理方法,其特征在于,该方法包括:确定流式文档中的目录,并从流式文档中获取目录的内容信息;其中包括每一目录项中描述信息的内容信息;通过排版确定每一目录项中描述信息的位置信息,每一目录项中引用页码的位置信息和排版后每一目录项所在的页码;根据所述每一目录项中描述信息的位置信息和引用页码的位置信息,以及每一目录项中描述信息的内容信息,确定每一目录项中制表符的属性信息;根据所述目录的内容信息,所述每一目录项中描述信息的位置信息、每一目录项中引用页码的位置信息和排版后每一目录项所在的页码,以及所述每一目录项中制表符的属性信息,将目录映射至版式文档。
【技术特征摘要】
1.一种流式文档的处理方法,其特征在于,该方法包括:确定流式文档中的目录,并从流式文档中获取目录的内容信息;其中包括每一目录项中描述信息的内容信息;通过排版确定每一目录项中描述信息的位置信息,每一目录项中引用页码的位置信息和排版后每一目录项所在的页码;根据所述每一目录项中描述信息的位置信息和引用页码的位置信息,以及每一目录项中描述信息的内容信息,确定每一目录项中制表符的属性信息;所述制表符的属性信息,包括制表符的位置信息;根据所述目录的内容信息,所述每一目录项中描述信息的位置信息、每一目录项中引用页码的位置信息和排版后每一目录项所在的页码,以及所述每一目录项中制表符的属性信息,将目录映射至版式文档。2.如权利要求1所述的方法,其特征在于,所述确定流式文档中的目录,包括:获取流式文档中的全部文字段落的内容信息;根据所述全部文字段落的内容信息和目录的特征,确定目录的开始区域和结束区域。3.如权利要求1-2任一权项所述的方法,其特征在于,根据所述目录的内容信息,所述每一目录项中描述信息的位置信息、每一目录项中引用页码的位置信息和排版后每一目录项所在的页码,以及所述每一目录项中制表符的属性信息,将目录映射至版式文档,包括:根据所述目录的内容信息,所述每一目录项中描述信息的位置信息、每一目录项中引用页码的位置信息和排版后每一目录项所在的页码,以及所述每一目录项中制表符的属性信息,分别将每一目录项中的描述信息、制表符和引用页码映射为版式文档中不同的文本句;根据每一目录项中的不同的文本句,将该目录项关联上版式文档的页面对象的图元对象;根据所关联的图元对象生成该目录项对应的版流式目录信息。4.如权利要求3所述的方法,其特征在于,所述根据每一目录项中的不同的文本句,将该目录项关联上版式文档的页面对象的图元对象,包括:将每一目录项中的不同的文本句分别关联上版式文档的不同的图元对象;将所述不同的图元对象关联到版式文档的页面对象。5.如权利要求4所述的方法,其特征在于,根据所关联的图元对象生成该目录项对应的版流式目录信息,包括:将该目录项关联到版式文档中的流式段落对象;将该目录项的所述不同的图元对象关联在所述流式段落对象的一个片段的一个块中;其中,关联在所述流式段落对象的制表符的个数计为用于表示需要进行自动计算的值。6.如权利要求4所述的方法,其特征在于,所述制表符的属性信息,还包括:每一目录项的制表符的个数。7.如权利要求6所述的方法,其特征在于,所述根据所关联的图元对象生成该目录项对应的版流式目录信息,包括:将该目录项关联到版式文档中的流式段落对象;将该目录项的所述不同的图元对象关联在所述流式段落对象的一个片段的一个块中;其中,关联在所述流式段落对象的制表符的个数为该目录项的制表符的个数。8.如权利要求3所述的方法,其特征在于,所述根据每一目录项中的不同的文本句,将该目录项关联上版式文档的页面对象的图元对象,包括:将每一目录项中的不同的文本句分别关联上版式文档的不同的图元对象;将所述不同的图元对象组合为一个复合图元;将该复合图元关联到版式文档的页面对象。9.如权利要求8所述的方法,其特征在于,所述根据所关联的图...
【专利技术属性】
技术研发人员:王长胜,邢国峰,
申请(专利权)人:北大方正集团有限公司,北京方正阿帕比技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。