当前位置: 首页 > 专利查询>北京大学专利>正文

基于版式文件的文档流式信息处理方法及装置制造方法及图纸

技术编号:2822837 阅读:727 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于版式文件的文档流式信息处理方法及装置,具体公开了如下技术方案:获得版式文件的文档流式信息,所述文档流式信息为所述版式文件中文档内容结构信息和/或所述版式文件中文档版面自适应呈现信息;根据所述获得的文档流式信息,对所述版式文件的文档内容进行内容块划分;描述所述版式文件的内容块划分结果信息;根据所述内容块划分结果信息,描述基于内容块划分后的该版式文件的文档流式信息。从而使得描述版式文件的文档流式信息更加切实可行,可以灵活对版式文件中的任意内容进行文档流式信息的描述,描述范围更加准确,并且文档流式信息的处理更加灵活、简化。

【技术实现步骤摘要】

本专利技术涉及计算机信息处理
,特别涉及基于版式文件的文档流式 信息处理方法及装置。
技术介绍
版式文件采用一种绝对描述方式,在自定义的坐标系中,明确记录了每个 文档显示的位置和尺寸等,从而使文档打印出来的结果和在计算机上浏览的结 果一致,而且在任何计算机环境下具有显示一致性的特点,以保证真实地重现文档的原貌,例如目前的PDF文件就是一种比较典型的版式文件。由于版式 文件的相对稳定性,因此非常适合作为电子文档的最终发布和传播形式,广泛 用于电子公文、电子书、电子期刊、电子报纸等领域。随着计算机技术的普及和信息技术的发展,版式文件的数量呈现爆炸性增 长,同时目前客户端种类增多,例如PDA、智能手机等,用户要求在多种客户 端上都能够方便的阅读版式文件,这就要求客户端能够突破版式文件显示固定 的局限性,根据显示设备屏幕的大小对版式文件的内容重新进行排版。同时由 于版式文件用绝对数值精确指定每个文档显示的位置和尺寸,使得它不利于编 辑,每次修改文档内容后都需要对布局重新计算,重写整个文档的布局信息, 因此对版式文件内容的检索、结构化存储、修改、提取等编辑操作都会非常麻 烦。对版式文件进行排版和重新排版处理都需要参照版式文件中的文档流式 信息,其中文档流式信息包含文档结构信息、阅读线索和版面信息等,然而目 前大量的版式文件中都还不包含这类文档流式信息。
技术实现思路
有鉴于此,本专利技术提供一种基于版式文件的文档流式信息处理方法及 装置,用以切实可行的描述版式文件的文档流式信息,并使版式文件的文 档流式信息描述简化。本专利技术提供以下技术方案一种基于版式文件的文档流式信息处理方法,包括步骤 获得版式文件的文档流式信息,所述文档流式信息为所述版式文件中文档 内容结构信息和/或所述版式文件中文档版面自适应呈现信息;根据所述获得的文档流式信息,对所述版式文件的文档内容进行内容块划分;描述所述版式文件的内容块划分结果信息;根据所述内容块划分结果信息,描述基于内容块划分后的该版式文件的文 档流式信息。一种基于版式文件的文档流式信息处理装置,包括文档流式信息获得模块,用于获得版式文件的文档流式信息,所述文档流 式信息为所述版式文件中文档内容结构信息和/或所述版式文件中文档版面自 适应呈现信息;内容块划分模块,用于根据所述获得的文档流式信息,对所述版式文件的 文档内容进行内容块划分;内容块划分结果信息描述模块,用于描述所述版式文件的内容块划分结果 信息;文档流式信息描述模块,用于根据所述内容块划分结果信息,描述基于内 容块划分后的该版式文件的文档流式信息。 本专利技术有益效果如下本专利技术提供的技术方案通过获得版式文件的文档流式信息,根据获得的文 档流式信息,对版式文件的文档内容进行内容块划分,描述内容块划分结果信息,根据内容块划分结果信息,描述基于内容块划分后的该版式文件的文档流 式信息,使得描述版式文件的文档流式信息更加切实可行,可以灵活对版式文 件中的任意内容进行文档流式信息的描述,描述范围更加准确,并且文档流式 信息的处理更加灵活、简化。附图说明图l为本专利技术实施例中,基于版式文件的文档流式信息处理方法流程示意图2为本专利技术实施例中,描述基于内容块划分后的版式文件的文档流式信 息示意图3为本专利技术实施例中,版式文件及其内容描述示意图; 图4为本专利技术实施例中,图3所示版式文件的内容块划分方式示意图; 图5为本专利技术实施例中,描述图3所示版式文件的内容块划分结果信息示 意图6为本专利技术实施例中,图3所示版式文件划分内容块后的文档流式信息 中的文档结构信息示意图7为本专利技术实施例中,图3所示版式文件划分内容块后的文档流式信息 中的文档版面自适应呈现信息示意图8为本专利技术实施例中,基于版式文件的文档流式信息处理装置结构示意图9为本专利技术实施例中,采用划分内容参考序列的方法对版式文件的文档 内容进行内容块划分示意图。具体实施例方式本专利技术实施例中,首先获得版式文件的文档流式信息,根据获得的流 式信息将版式文件的文档内容划分为多个内容块,并描述内容块划分结果信息,再根据得到的内容块划分结果信息,描述划分为多个内容块的版式 文件的文档流式信息,从而可以切实可行的描述版式文件的文档流式信息, 并使版式文件的文档流式信息描述简化。下面结合说明书附图对本专利技术实施例进行详细说明。如图1所示,为基于版式文件的文档流式信息处理方法流程图,具体包括如下步骤步骤IOI,获得版式文件的文档流式信息;其中这里的版式文件可以指整 个版式文件,也可以指整个版式文件中的一页文件或几页文件等;版式文件的 文档流式信息具体指版式文件中文档内容结构信息和/或版式文件中文档版面 自适应呈现信息,可以但不限于包含以下三类信息文档内容结构信息,包括文档的章节信息、各章节内部内容块顺序以及内 容块中各图元的顺序等;阅读线索信息,具体指除了上述文档内容结构信息提供的阅读顺序外,根 据具体需要提供的额外的阅读顺序信息,它是提供给用户的可选的阅读顺序信 息。阅读线索信息可以是版式文件全部文档内容的阅读顺序信息,也可以是版 式文件部分文档内容的阅读顺序信息;版面信息,具体指版式文件版面重排时决定图元最终呈现效果的信息,包 括图元自身或者内容块自身的版面属性,以及同一内容块中各图元之间或者各 内容块之间的版面关系,例如指定图片的文字衬托方式或指定多个内容块的分 栏信息。上述版面重排指的是由于版面大小或者版面内容发生变化时,根据一 定规则重新组织版面中的各图元,形成版面展现结果的过程。本专利技术实施例这里可以通过以下三种方式中的一种或者几种的组合来获 得版式文件的文档流式信息对于已经包含文档流式信息的电子文档,在其作为版式文件的文档内容来 源时,可以通过对版式文件的各种文档内容来源进行解析,直接获得版式文件 的文档流式信息,例如,对于与版式文件所对应的、已经包含部分文档流式信息的电子文档,如HTML、 Microsoft Word等,可以利用该文档的文档处理系 统,对其中的文档流式信息进行4是取,例如对于Microsoft Word文档可以利用 O伍ce自动化对象来获得其文档流式信息;对于没有包含文档流式信息的电子文档,在其作为版式文件的文档内容来 源时,可以利用各种识别算法或智能理解算法,对版式文件进行计算来获得版 式文件的文档流式信息,例如,可以通过基于文档分析和文档理解的处理系统 来对版式文件进行计算,以获得该版式文件的文档流式信息;对于没有包含文档流式信息的电子文档,在其作为版式文件的文档内容来 源时,还可以通过接收外界用户输入的针对版式文件的文档流式信息,来获得 版式文件的文档流式信息,例如,用户可以通过一个带有图形界面的计算机应 用程序,通过对版式文件的文档内容进行标注,来实现输入该版式文件的文档流式信息o步骤102,根据上述获得的文档流式信息,对该版式文件的文档内容进行 内容块划分;将版式文件的文档内容划分为多个内容块可以通过基于版式文件直接组 织的方法来实现即将版式文件的每一组命令语句、或每一组对象或者每一段 内容描述作为一个内容块单位,对该版式文件的文档内容进行内容块划分处 理,具体来说,按照文档流式信息的需要,可以使用语句号、语句长度、语句 偏移量,或对象标识、对象偏移量,或内容标识、本文档来自技高网...

【技术保护点】
一种基于版式文件的文档流式信息处理方法,其特征在于,包括:获得版式文件的文档流式信息,所述文档流式信息为所述版式文件中文档内容结构信息和/或所述版式文件中文档版面自适应呈现信息;根据所述获得的文档流式信息,对所述版式文件的文档内容进行内容块划分;描述所述版式文件的内容块划分结果信息;根据所述内容块划分结果信息,描述基于内容块划分后的该版式文件的文档流式信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:仇睿恒王毅汤帜
申请(专利权)人:北京大学北大方正集团有限公司北京方正阿帕比技术有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1