版式文档的重排方法、系统及电子阅读终端技术方案

技术编号:13110567 阅读:59 留言:0更新日期:2016-03-31 15:51
本申请公开一种版式文档的重排方法,其包括:获取与版式文档分开存储的流式标记数据,该流式标记数据根据预设的逻辑信息结构与版式文档之间建立对应关系;根据流式标记数据查找版式文档中对应的文档内容,来对版式文档进行重排。与此同时,本申请还公开一种版式文档的重排系统及电子阅读终端,其将标记后的流式标记数据与版式文档分开存储,在重排时根据流式标记数据来解析版式文档,这样流式标记数据就不会对原始文档造成影响,使得在不修改不破坏原始文档的情况下,可以有效地提高版式文档的重排效果和重排效率;同时,标记后的流式标记数据可以容易地被多用户多终端共享,有助于电子设备的技术升级。

【技术实现步骤摘要】

本申请涉及数字阅读技术,尤其涉及一种版式文档的重排方法、系统及电子阅读终端
技术介绍
随着互联网的蓬勃发展及硬件水平的不断提升,电子文档正在逐步取代传统的图书和纸质文档。同时,人们的阅读习惯也不再局限于传统的纸质出版物,电子阅读(或称数字阅读)比重正在逐渐变大。由于各种手机、电子书等便携性电子设备的流行,使得人们可以利用生活中的碎片时间进行电子阅读,例如乘坐公交、地铁时就可以阅读电子图书。在巨大的市场需求下,对于电子阅读的信息提供及处理方式也提出了更高的要求。众所周知,电子文档分为流式文档和版式文档。流式文档的基本单位是字符,它是有序字符的集合,长度为该文件所包含的字符个数。如Word文件就是一种流式文档,其主要记录流式信息,其中也可以加入某些定版的对象(如图像漂浮等)。版式文档作为一种绝对描述方式,在自定义的坐标系中,明确记录每个文档的位置和尺寸等,从而使得文档打印出来的结果和计算机上浏览的结构一致,而且在任何计算机环境下具有显示一致性的特点,由此可以保证真实地重现文档的原貌。如pdf、xps、ceb等文件就是较为典型的版式文档,它们具有版面固定、所见即所得(What you see is what you get,WYSIWYG)等特点,因而非常适合于成文后的文件发布、传播和存档。流式文档不存在电子阅读的排版障碍,目前已经有成熟的排版引擎可以适用。对于版式文档而言,则经常会因为版面固定而在小屏幕设备下导致阅读不便。如果版式文档的一个页面的内容在设备的屏幕上显示,将受到文字、图像等太小而看不清楚等诸多限制;若对页面进行放大或缩小操作,将势必影响用户的阅读体验。这就要求电子阅读终端能够突破版式文档显示固定的局限性,以便可以根据版式文档的内容重新进行排版,最终保证用户具有较好的阅读体验。对于版式文档的重排问题,业界纷纷推出了各种解决方案。实现版式文档重排的现有方案主要有以下两种:一种现有版式文档的重排方案是:为了补救在各种电子设备上阅读电子文档的需要,在制作相应的版式文档时标记版面的流式显示信息,并把标记数据存储于原始文档中一起发布。这种重排方案中,以版式文档中精确定位的版面描述为基础,在其中附加足够的流式逻辑结构信息用来支持重排、抽取表格结构等流式应用。例如,Adobe在1999年推出的TOFL 3规范中引入了 Logical Structure (逻辑结构),并在2001年推出的TOFl.4产品中引入了 tagged PDF来完善流式信息的表达,之后又在其发布的MARS文档格式中使用XML对这部分信息进行结构化的描述。这种xml标记语言,在理论上可以描述一切格式,如Word新版本的Docx就是基于xml进行描述的。此外,方正阿帕比在2010年发布的CEBXvl.1规范中定义了包含文章、章节、段落、片段、块的多层可嵌套的树状逻辑结构,其中的块通过直接引用版式页面上的版面块或图元(vl.2)来实现数据共享,由此可以支持在移动终端等电子阅读设备上的实时排版和屏幕自适应显示,具体的标准手册及软件可参考方正阿帕比的官方网站(http://www.apab1.cn/download/index.html)上的有关介绍。另一种现有版式文档的重排方案是:在打开一个版式文档时,通过某些预设的算法和规则,对版面信息进行解析,并根据解析的结果,交给排版引擎来进行实时重排,即通过实时排版来进行屏幕自适应显示。这种版式文档的实时重排方法,目前在各种电子阅读终端上得到广泛使用。上述两种方案均可对版式文档进行重排显示,但它们均存在一定的问题,简述如下:第一种重排方案中,文档内容、标记数据数据位于同一个文件内,没有标记过流式显示信息的版式电子文档的数据同步可能会存在困难。如果发现原始文档标记有错误,需要再次修改文档,而修改文档时有可能对原始文档造成破坏。尤其在大量文档已经归档的情况下,采用这种方式对文档进行同步可能会引发更多不良后果。第二种重排方案在打开文档的时候实时地解析该版式文档,电子阅读终端在每次阅读时通过算法实时分析、标记、重排等,因此比较耗时耗电。此外,该重排方案依赖某种算法的可靠性,因而可能存在重排效果不好的问题。由此可见,现有版式文档的重排技术仍然存在着较大的改进空间,这就有必要提出一种有效提高重排效果和重排效率的版式文档重排的技术方案。
技术实现思路
针对现有技术存在的缺陷,本申请的目的在于提供一种版式文档的重排方法、系统和电子阅读终端,可以有效地改善重排效果和重排效率。为解决以上技术问题,本申请提供一种版式文档的重排方法,该方法包括:获取与版式文档分开存储的流式标记数据,该流式标记数据根据预设的逻辑信息结构与版式文档之间建立对应关系;根据流式标记数据查找版式文档中对应的文档内容,来对版式文档进行重排。可选地,流式标记数据包括与版式文档的文档内容相对应的逻辑信息,未包括版式文档的实质内容。可选地,流式标记数据包括版式文档的摘要内容。可选地,预先查找是否存在与版式文档对应的预处理的流式标记数据;若是,获取该流式标记数据;若否,按照预设的流式逻辑信息结构对版式文档进行标记,以获取流式标记数据并进行存储。可选地,通过算法分析或人工分析或算法分析与人工分析相结合的方式来对版式文档进行版面解析,在按照预设的流式逻辑信息结构进行标记后获得相应的流式标记数据。可选地,流式标记数据以文件或数据库记录的形式外置存储于服务器端或本地。可选地,通过本地选定的流式逻辑信息结构,根据流式标记数据查找版式文档中对应的文档内容,来对版式文档进行重排。可选地,本地选定的流式逻辑信息结构对应于本地算法实现的、本地预处理的、用户指定的、或最新标记技术标记的流式逻辑信息结构。可选地,通过本地选定的流式逻辑信息结构确定的流式标记数据与版式文档的对应关系,从流式标记数据中获取全部或部分的流式标记,针对每一流式标记查找到版式文档中的对应文档内容,交由排版弓I擎重新排版及显示。与此对应地,本申请同时提供一种版式文档的重排系统,该系统包括:流式标记析取器,被配置为获取与流式标记数据,该流式标记数据根据预设的逻辑信息结构与版式文档之间建立对应关系;存储器,被配置为存储流式标记数据,该流式标记数据与版式文档分开存储;排版引擎,被配置为根据流式标记数据查找版式文档中对应的文档内容,来对版式文档进行重排。此外,本申请还相应提供一种电子阅读终端,可对版式文档进行重排,该电子阅读终端被配置为:获取与版式文档分开存储的流式标记数据,该流式标记数据根据预设的逻辑信息结构与版式文档之间建立对应关系;以及根据流式标记数据查找版式文档中对应的文档内容,来对版式文档进行重排。与现有技术相比,本申请利用将流式标记数据外置存储的方式,在不修改不破坏原始文档的情况下,可以实现有效地提高版式文档的重排效果和重排效率,具体而言:本申请通过对版式文档的实时流式逻辑标记及预处理标记,可以适应版面大小而进行重排显示,这既可以获得较好的排版效果,又可以很好地缩短重排时间;同时,通过版面分析并把版式文档的流式逻辑信息标记外置化,可以解决大量已有缺少流式标记数据的版式文档的重排问题,不需要担心修改对原始文档造成的破坏及其后续文档泛滥不统一的问题;此外,本申请中版式文档只需标记一次,本文档来自技高网
...

【技术保护点】
一种版式文档的重排方法,其特征在于,包括:获取与版式文档分开存储的流式标记数据,该流式标记数据根据预设的逻辑信息结构与版式文档之间建立对应关系;根据流式标记数据查找版式文档中对应的文档内容,来对版式文档进行重排。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘孙亮
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1