当前位置: 首页 > 专利查询>微软公司专利>正文

模式匹配引擎制造技术

技术编号:10525369 阅读:87 留言:0更新日期:2014-10-09 10:54
模式匹配引擎及相关联的用于检测在固定格式文档中出现的页眉、页脚、水印、页编码、页面色彩和页边界中的一个或多个的方法。模式匹配引擎跨固定格式文档的各页执行模式匹配以标识重复模式。使用试探分析,符合所选准则的重复模式被分类为页眉、页脚或水印。过滤移除了不可能表示页眉、页脚或水印的重复模式。由模式匹配引擎产生的信息允许在将固定格式文档转换为流格式文档时将重复元素合适地重构为可流动元素。

【技术实现步骤摘要】
【国外来华专利技术】模式匹配引擎 背景 流格式文档和固定格式文档被广泛使用且具有不同的目的。流格式文档使用复杂 逻辑格式化结构(如章节、段落、列以及表)来组织文档。结果,流格式文档提供了灵活性 且易于修改,使得它们适用于涉及被频繁更新或受到显著编辑的文档的任务。相反,固定格 式文档使用基本物理布局元素(如文本串、路径、以及图像)来组织文档以保留原始外观。 固定格式文档提供一致且精确的格式布局,使得它们适用于涉及不被频繁或大量变更或其 中需要统一性的文档的任务。这样的任务的示例包括文档归档、高质量再现、以及用于广告 发布和打印的源文件。固定格式文档通常从流格式源文档中创建。固定格式文档还包括物 理(即,纸质)文档的数字再现(例如,扫描和照片)。 在其中需要编辑固定格式文档但流格式源文档不可用的情况下,固定格式文档必 须被转换成流格式文档。转换涉及解析该固定格式文档并将来自该固定格式文档的基本物 理布局元素变换成在流格式文档中使用的更复杂的逻辑元素。面对复杂元素(如水印、页 眉、页脚,和页码)的现有文档转换器诉诸于被设计成以输出文档的可流动性为代价保留 布局(例如,文本框、行间距、以及字符间距)的视觉保真度的基本技术。结果是需要用户 执行大量手动重构来获得真正有用的流格式文档的受限流格式文档。本专利技术正是对于这些 和其他考虑事项而做出的。 简要概述 提供以下简要概述以便以简化形式介绍将在以下详细描述中进一步描述的一些 概念。本简要概述并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限 制所要求保护主题的范围。 在各实施例中,模式匹配引擎检测在固定格式文档中形成重复模式的元素。为了 可靠地检测大量重复模式,模式匹配引擎检测固定格式文档中的基本重复模式作为候选。 重复模式在元素出现在固定格式文档中每页上的相似或基本一致的位置处并在所选数量 的页上具有相似或基本相同的内容时形成。首先,模式匹配引擎标识水印候选。页边界和 页面色彩被当做专门水印来对待。水印通常在固定格式文档的每页上且在相同位置重复相 同的内容。在检测水印之后,模式匹配引擎寻找页眉和页脚候选。为检测页眉和页脚候选, 模式匹配引擎确定何时特定数量的页的上部或下部在相同位置包含相同或相似内容。 为标识动态元素,诸如页码,模式匹配引擎比较在各连续页上出现的元素的内容。 如果在第一页上所考虑的文本串包含一个数字,而在第二页上所考虑的文本串也包含一个 数字而且那个数字的值从第一页到第二页增加一,该元素被检测为页编码。 为了可靠地检测大量重复模式,模式匹配引擎查找基本重复模式。作为结果,不是 水印、页边界、页面色彩、页眉、页脚,或页码的重复元素被检测以作为候选。一个过滤器丢 弃未重复最小次数的候选。另一个过滤器丢弃贯穿固定格式文档中间歇地或随机地出现并 且被多页分开的候选。其它过滤器丢弃行号和被识别为其它对象(诸如表格标题)的重复 元素。在过滤后,模式匹配引擎将匹配合适准则的候选分类为页眉、页脚或水印。 -个或多个实施例的细节在附图和以下描述中阐明。通过阅读下面的具体实施例 并参考相关联的附图,其他特征和优点将变得显而易见。要理解的是下面的具体实施例仅 仅是说明性的,而不是对所要求保护的专利技术的限制。 附图简述 通过参考下面的【具体实施方式】、所附的权利要求书和附图,进一步的特征、各方面 和益处将变得更好理解,其中各元素不会缩放以更清晰地示出细节,在若干视图中,相同的 附图标记指示相同的元素,并且其中: 图1是示出包括模式匹配引擎的系统的一个实施例的框图; 图2是示出文档处理器的一个实施例的操作流程的框图; 图3A - 3D示出在固定格式文档中出现的由模式匹配引擎处理的各种重复元素; 图4A - 4B是示出用于检测页眉、页脚和水印的模式匹配方法的一个实施例的流 程图; 图5示出了执行模式匹配引擎的一个实施例的平板计算设备的一个实施例; 图6是可用其实施本专利技术的各实施例的计算设备的一个实施例的简化框图; 图7A示出了执行模式匹配引擎的一个实施例的移动计算设备的一个实施例; 图7B是可用其实施本专利技术的各实施例的移动计算设备的一个实施例的简化框 图;以及 图8是可在其中实施本专利技术的各实施例的分布式计算系统的简化框图。 详细描述 在此描述并在附图中示出的是模式匹配引擎及相关联的用于检测固定格式文档 中出现的页眉、页脚、水印、页编码、页面色彩和页边界中的一个或多个的方法。模式匹配引 擎跨固定格式文档的各页执行模式匹配以标识重复模式。使用试探分析,符合所选准则的 重复模式被分类为页眉、页脚或水印。过滤移除了不可能表示页眉、页脚或水印的重复模 式。由模式匹配引擎产生的信息允许在将固定格式文档转换为流格式文档时将重复元素合 适地重构为可流动元素。 图1示出合并了模式匹配引擎100的系统。在所示实施例中,模式匹配引擎100 作为在计算设备104上执行的文档转换器102的一部分来操作。文档转换器102使用解析 器110、文档处理器112以及串行化器114将固定格式文档106转换成流格式文档108。解 析器110从固定格式文档106中提取数据。从固定格式文档提取的数据被写入可由文档处 理器112和串行化器114访问的数据存储116。文档处理器112使用一个或多个检测和/ 或重构引擎(例如,本专利技术的模式匹配引擎100)分析该数据并将其转换成可流动元素。最 后,串行化器114将可流动元素写成可流动文档格式(例如,文字处理格式)。 图2更详细地示出了文档处理器112的操作流程的一个实施例。文档处理器112 包括可任选的光学字符识别(OCR)引擎202、布局分析引擎204以及语义分析引擎206。数 据存储116中包含的数据包括物理布局对象208和逻辑布局对象210。在一些实施例中,物 理布局对象208和逻辑布局对象210被分层安排在树状编组阵列中(S卩,数据对象)。在各 实施例中,页面是物理布局对象208的顶级编组,而章节是逻辑布局对象210的顶级编组。 从固定格式文档106中提取的数据一般被存储为由固定格式文档106中的包含页面来组织 的物理布局对象208。从固定格式文档获得的基本物理布局对象包括文本串、图像以及路 径。文本串是页面内容流中的指定在显示固定格式文档时字符的绘制位置的文本元素。图 像是储存在固定格式文档106中的光栅图像(S卩,图片)。路径描述了诸如用于构建矢量图 的线、曲线(例如,三次贝塞尔曲线)以及文本轮廓等元素。逻辑数据对象包括诸如章节、 段落、列和表格等的可流动元素。 处理开始的位置依赖于被解析的固定格式文档106的类型。从流格式源文档直接 创建的本机固定格式文档l〇6a包含基本物理布局元素中的一些或全部。一般而言,从本机 固定格式文档l〇6a提取的数据可供文档转换器立即使用;但在一些情况下,次要重新格式 化或其他次要处理器被应用以组织或标准化该数据。相反,通过对物理文档进行数字图像 化(例如,扫描或拍照)而创建的基于图像的固定格式文档l〇6b中的所有信息被存储作为 不具有附加数据(即,没有文本串或路径)的一系列页面图像。在这种情况下,任选光学 字符识别引擎202分析每一页面图像并创建对应的物理布局对象。一旦物理布局对象208 可用,布局分析引擎204就确定固定本文档来自技高网...

【技术保护点】
一种用于标识在固定格式文档的不同页上重复的元素并对其进行分类的模式匹配方法,所述方法包括以下步骤:当元素具有相似内容并在所述固定格式文档的多个页面的相似位置上出现时将所述元素标识为候选;丢弃与过滤标准匹配的所述候选;以及当所述候选符合一组对应准则时,选择性地将所选的所述候选分类为页眉、页码,或水印。

【技术特征摘要】
【国外来华专利技术】1. 一种用于标识在固定格式文档的不同页上重复的元素并对其进行分类的模式匹配 方法,所述方法包括以下步骤: 当元素具有相似内容并在所述固定格式文档的多个页面的相似位置上出现时将所述 元素标识为候选; 丢弃与过滤标准匹配的所述候选;以及 当所述候选符合一组对应准则时,选择性地将所选的所述候选分类为页眉、页码,或水 印。2. 如权利要求1所述的模式匹配方法,其特征在于,所述将元素标识为候选的步骤还 包括以下步骤: 标识在第一页上的第一元素中出现的第一数字; 标识在第二页上的第二元素中出现的第二数字,所述第二数字与所述第一数字处于大 致相同的位置,所述第二页与所述第一页连续;以及 仅仅在所述第二数字和所述第一数字之差等于一时,将所述第一元素和所述第二元素 标识为所述重复元素。3. 如权利要求1所述的模式匹配方法,其特征在于,丢弃所述候选的步骤还包括:丢弃 没有在所述固定格式文档中的多于所选最小数量的页面上重复的所述候选的步骤。4. 如权利要求1所述的模式匹配方法,其特征在于,丢弃所述候选的步骤还包括:丢弃 没有在所述固定格式文档中的至少两个连续页面上重复的所述候选的步骤。5. 如权利要求1所述的模式匹配方法,其特征在于,丢弃所述候选的步骤还包括:丢弃 在所述固定格式文档中表现为行号的候选的步骤。6. 如权利要求1所述的模式匹配方法,其特征在于,选择性地对所选的所述候选进行 分类的步骤还包括:当所述候选在所述固定格式文档的所述第一页以后的所有页上的大致 相同位置上出现而且所有这样的候选具有相似内容时,将所述候选分类为水印的步骤。7. 如权利要求6所述的模式匹配方法,其特征在于,将所述候选分类为水印的步骤还 包括:当所述水印覆盖所述页面上等于或大于所选最小页面覆盖区域阈值的区域时,将所 述水印分类为页面色彩的步骤。8. 如权利要求6所述的模式匹配方法,其特征在于,将所述候选分类为水印的步骤还 包括:当所述水印由多个相连元素形成并具有包含所述页面上等于或大于所选最小页边界 区域阈值的区域的边界框时,将所述水印分类为页边界的步骤。9. 如权利要求1所述的模式匹配方法,其特征在于,选择性地对所选的所述候选进行 分类的步骤还包括:当所述候选显得是在所述固定格式文档的各页的最高的元素时,将所 述候选分类为页眉的步骤。10. 如权利要求1所述的模式匹配方法,其特征在于,选择性地对所选的所述候选进行 分类的步骤还包括:当所述候选表现为所述固定格式文档中的各页的最底部元素时,将所 述候选分类为页脚的步骤。11. 如权利要求1所述的模式匹配方法,其特征在于,选择性地对所选的所述候选进行 分类的步骤还包括:当在所述固定格式文档中的各页的所述候选上方出现的每个元素被分 类为页眉时,将所述候选也分类为页眉的步骤。12. 如权利要求1所述的模式匹配方法,其特征在于,选择性地对所选的所述候选进行 分类的步骤还包括:当在所述固定格式文档中的各页的所述候选下方出现的每个元素被分 类为页脚时,将所述候选也分类为页脚的步骤。13. 如权利要求1所述的模式匹配方法,其特征在于,还包括在选择性地对所选的所述 候选进行分类的步骤之后,重复所述丢弃...

【专利技术属性】
技术研发人员:V·约瓦诺维克M·拉扎里维克M·拉斯科维克N·波兹达里维克M·舍舒姆
申请(专利权)人:微软公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1