一种流式文档的处理方法及装置制造方法及图纸

技术编号:10568490 阅读:134 留言:0更新日期:2014-10-22 18:40
本发明专利技术实施例提供了一种流式文档的处理方法及装置,用于将流式文档转化为版式文档,正确呈现目录;增强文档在不同设备上显示时的自适应性,提高用户体验。该方法包括:确定流式文档中的目录,并从流式文档中获取目录的内容信息;其中包括每一目录项中描述信息的内容信息;通过排版确定每一目录项中描述信息的位置信息,每一目录项中引用页码的位置信息和排版后每一目录项所在的页码;根据所述每一目录项中描述信息的位置信息和引用页码的位置信息,以及每一目录项中描述信息的内容信息,确定每一目录项中制表符的属性信息;将目录映射至版式文档。

【技术实现步骤摘要】
一种流式文档的处理方法及装置
本专利技术涉及文档转换领域,尤其涉及一种流式文档的处理方法及装置。
技术介绍
首先对本专利技术涉及的术语名词进行介绍:版式文档:是一种独立于软件、硬件、操作系统、呈现/打印设备的文档,例如pdf,cebx等格式的版式文档。一个版式文档可以包含多个页面,每个页面由与设备和分辨率无关的若干的图元(即版面对象,页面上呈现内容的最基本单元,如文本、图形、图像、表格、多媒体等类型图元,也包括基于这些基本图元组合而成的复合图元)组成。版式文档的常见基本特性:原版原式呈现(文本图像等内容及其位置大小、色彩等版式信息在不同平台软硬件上呈现/打印显示效果一致);文档内容等数据的结构化描述(无论采用XML还是二进制描述方式,其文档格式都具有结构化特征);交互性(动画,多媒体,执行动作动等);安全性(数字签名等)等。近年来也增添了许多新特性:多样化互联网应用(线性化边下载边阅读、“一次出版,多平台应用,多途径传播”等);移动阅读灯设备自适应性(要求原版原式的版式文档能在手机等各种大小不一的设备中自动调整文档内容的呈现,如同办公软件等流式文档天然具备自适应特点)等。流式文档:如Office文档,它描述的不是排版后生成的具有版面呈现所需要的所有数据的文档(即版式文档),其相关(流式)数据通常不具有固定位置大小等版面信息,每次加载文档时需要类似流水线式的对这些数据从头到尾进行重新排版计算得到相关位置信息,然后才能呈现出来。结构化信息:关于文档(流式、版式等类型)的逻辑结构的信息,包括文章、节、段落等逻辑结构,以及显示样式信息。结构化信息可用于实现版面内容的重排(Reflow),以适应不同屏幕尺寸的设备特别是移动设备的需求。常见粗粒度的逻辑结构单元有:区域、排版框、段落、表格等。细粒度的基本逻辑结构单元有:文本句、图形、图像、公式、图表、多媒体对象、复合对象等。这些富有语义的逻辑数字内容对象在流式文档、版式文档等中的数据逻辑结构描述通常都是有差异的。文本句:RunorSpan,段落内最小的逻辑文字单元,连续的文本以是否具有相同文字属性为依据来划分为若干个句。段落内被其它单元对象如图形图像等锚点对象分割开的、即便有相同文字属性也会划分有不同的句。复合图元:多个基本图元组合后形成的一个图元,类似办公文档中多个基本图形等对象组合Group后形成的一个整体性对象,该对象还可进一步复原(拆分)为组合前的对象。在文档转换领域,通常利用虚拟打印技术将流式文档(例如办公软件MicroSoftOffice文档)转换为版式文档(例如ApabiCEBX文档[(此格式可包含流式信息和版式信息]),但该技术只能得到纯版式信息。而其中的流式信息(如文档中的目录)利用MicroSoftWord等应用程序提供的二次开发应用接口就可以获取。最后若要得到一份在移动设备上可阅读的兼版流式信息一体的版式文档,则需要将上述二者相关的纯版式信息和待提取的流式信息结合起来以生成最终的版式文档。制作带流式目录结构化信息的版式文档,现有公开的技术为采用虚拟打印技术,以流式目录结构化信息以及文字段落组成的目录项为基础,生成对应的版式文档文本图元,同样,版式文档中该目录对应的结构化信息也是以各段落来表达的。其缺陷是:在各种移动设备阅读器中重排呈现目录信息时,常因为目录项描述信息(如章节号与标题)与对应的引用页码(即对应章节的起始页码)之间的制表符个数不确定而导致不能在一行上整体呈现。参见图1,为目录阅读效果正确和错误比对示意图。造成此缺陷的根本原因在于:现有的版式文档的逻辑结构化信息(用于在不同大小的设备中自动重排以获得好的呈现效果)的约束是:类型为Tab的控制符即制表符的值记录了宽度信息(由一个键值对表示,记录制表符个数以及制表符的字符宽度);而类似Office等流式文档其目录信息中的制表符(即Tab)没有记录宽度信息,通常记录了“.”等制表符使用的符号,字符宽度是依据文档页面宽度等信息由Office排版后自动绘制出来的。因此,现有技术将流式文档转化为版式文档后,目录不能正确显示。
技术实现思路
本专利技术实施例提供了一种流式文档的处理方法及装置,用于将流式文档转化为版式文档,正确呈现目录;增强文档在不同设备上显示时的自适应性,提高用户体验。本专利技术实施例提供的一种流式文档的处理方法包括:确定流式文档中的目录,并从流式文档中获取目录的内容信息;其中包括每一目录项中描述信息的内容信息;通过排版确定每一目录项中描述信息的位置信息,每一目录项中引用页码的位置信息和排版后每一目录项所在的页码;根据所述每一目录项中描述信息的位置信息和引用页码的位置信息,以及每一目录项中描述信息的内容信息,确定每一目录项中制表符的属性信息;根据所述目录的内容信息,所述每一目录项中描述信息的位置信息、每一目录项中引用页码的位置信息和排版后每一目录项所在的页码,以及所述每一目录项中制表符的属性信息,将目录映射至版式文档。本专利技术实施例提供的一种流式文档的处理装置包括:识别模块,用于确定流式文档中的目录,并从流式文档中获取目录的内容信息;其中包括每一目录项中描述信息的内容信息;位置确定模块,用于通过排版确定每一目录项中描述信息的位置信息,每一目录项中引用页码的位置信息和排版后每一目录项所在的页码;制表符确定模块,用于根据所述每一目录项中描述信息的位置信息和引用页码的位置信息,以及每一目录项中描述信息的内容信息,确定每一目录项中制表符的属性信息;映射模块,用于根据所述目录的内容信息,所述每一目录项中描述信息的位置信息、每一目录项中引用页码的位置信息和排版后每一目录项所在的页码,以及所述每一目录项中制表符的属性信息,将目录映射至版式文档。通过以上技术方案可知,本专利技术中确定流式文档中的目录,并从流式文档中获取目录的内容信息;其中包括每一目录项中描述信息的内容信息;通过排版确定每一目录项中描述信息的位置信息,每一目录项中引用页码的位置信息和排版后每一目录项所在的页码;根据所述每一目录项中描述信息的位置信息和引用页码的位置信息,以及每一目录项中描述信息的内容信息,确定每一目录项中制表符的属性信息;根据所述目录的内容信息,所述每一目录项中描述信息的位置信息、每一目录项中引用页码的位置信息和排版后每一目录项所在的页码,以及所述每一目录项中制表符的属性信息,将目录映射至版式文档。通过确定各目录项的具体信息,再映射至版式文档,使版式文档能够正确呈现目录,提高了用户体验。附图说明图1为现有技术中流式文档转化为版式文档后的显示效果示意图;图2为本专利技术实施例提供的一种流式文档的处理方法的流程示意图;图3为本专利技术具体实施例提供的一种流式文档的处理方法的流程示意图;图4为本专利技术具体实施例提供的另一流程示意图;图5为本专利技术具体实施例提供的另一流程示意图;图6为本专利技术具体实施例提供的另一流程示意图;图7为本专利技术实施例提供的一种流式文档的处理装置的结构示意图;图8为本专利技术实施例提供的一种流式文档的处理装置的另一结构示意图。具体实施方式本专利技术实施例提供了一种流式文档的处理方法及装置,用于将流式文档转化为版式文档,正确呈现目录;增强文档在不同设备上显示时的自适应性,提高用户体验。参见图2,本专利技术实施例提供的一种流式文档的处理方法本文档来自技高网
...
一种流式文档的处理方法及装置

【技术保护点】
一种流式文档的处理方法,其特征在于,该方法包括:确定流式文档中的目录,并从流式文档中获取目录的内容信息;其中包括每一目录项中描述信息的内容信息;通过排版确定每一目录项中描述信息的位置信息,每一目录项中引用页码的位置信息和排版后每一目录项所在的页码;根据所述每一目录项中描述信息的位置信息和引用页码的位置信息,以及每一目录项中描述信息的内容信息,确定每一目录项中制表符的属性信息;根据所述目录的内容信息,所述每一目录项中描述信息的位置信息、每一目录项中引用页码的位置信息和排版后每一目录项所在的页码,以及所述每一目录项中制表符的属性信息,将目录映射至版式文档。

【技术特征摘要】
1.一种流式文档的处理方法,其特征在于,该方法包括:确定流式文档中的目录,并从流式文档中获取目录的内容信息;其中包括每一目录项中描述信息的内容信息;通过排版确定每一目录项中描述信息的位置信息,每一目录项中引用页码的位置信息和排版后每一目录项所在的页码;根据所述每一目录项中描述信息的位置信息和引用页码的位置信息,以及每一目录项中描述信息的内容信息,确定每一目录项中制表符的属性信息;所述制表符的属性信息,包括制表符的位置信息;根据所述目录的内容信息,所述每一目录项中描述信息的位置信息、每一目录项中引用页码的位置信息和排版后每一目录项所在的页码,以及所述每一目录项中制表符的属性信息,将目录映射至版式文档。2.如权利要求1所述的方法,其特征在于,所述确定流式文档中的目录,包括:获取流式文档中的全部文字段落的内容信息;根据所述全部文字段落的内容信息和目录的特征,确定目录的开始区域和结束区域。3.如权利要求1-2任一权项所述的方法,其特征在于,根据所述目录的内容信息,所述每一目录项中描述信息的位置信息、每一目录项中引用页码的位置信息和排版后每一目录项所在的页码,以及所述每一目录项中制表符的属性信息,将目录映射至版式文档,包括:根据所述目录的内容信息,所述每一目录项中描述信息的位置信息、每一目录项中引用页码的位置信息和排版后每一目录项所在的页码,以及所述每一目录项中制表符的属性信息,分别将每一目录项中的描述信息、制表符和引用页码映射为版式文档中不同的文本句;根据每一目录项中的不同的文本句,将该目录项关联上版式文档的页面对象的图元对象;根据所关联的图元对象生成该目录项对应的版流式目录信息。4.如权利要求3所述的方法,其特征在于,所述根据每一目录项中的不同的文本句,将该目录项关联上版式文档的页面对象的图元对象,包括:将每一目录项中的不同的文本句分别关联上版式文档的不同的图元对象;将所述不同的图元对象关联到版式文档的页面对象。5.如权利要求4所述的方法,其特征在于,根据所关联的图元对象生成该目录项对应的版流式目录信息,包括:将该目录项关联到版式文档中的流式段落对象;将该目录项的所述不同的图元对象关联在所述流式段落对象的一个片段的一个块中;其中,关联在所述流式段落对象的制表符的个数计为用于表示需要进行自动计算的值。6.如权利要求4所述的方法,其特征在于,所述制表符的属性信息,还包括:每一目录项的制表符的个数。7.如权利要求6所述的方法,其特征在于,所述根据所关联的图元对象生成该目录项对应的版流式目录信息,包括:将该目录项关联到版式文档中的流式段落对象;将该目录项的所述不同的图元对象关联在所述流式段落对象的一个片段的一个块中;其中,关联在所述流式段落对象的制表符的个数为该目录项的制表符的个数。8.如权利要求3所述的方法,其特征在于,所述根据每一目录项中的不同的文本句,将该目录项关联上版式文档的页面对象的图元对象,包括:将每一目录项中的不同的文本句分别关联上版式文档的不同的图元对象;将所述不同的图元对象组合为一个复合图元;将该复合图元关联到版式文档的页面对象。9.如权利要求8所述的方法,其特征在于,所述根据所关联的图...

【专利技术属性】
技术研发人员:王长胜邢国峰
申请(专利权)人:北大方正集团有限公司北京方正阿帕比技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1