【技术实现步骤摘要】
【国外来华专利技术】模式匹配引擎 背景 流格式文档和固定格式文档被广泛使用且具有不同的目的。流格式文档使用复杂 逻辑格式化结构(如章节、段落、列以及表)来组织文档。结果,流格式文档提供了灵活性 且易于修改,使得它们适用于涉及被频繁更新或受到显著编辑的文档的任务。相反,固定格 式文档使用基本物理布局元素(如文本串、路径、以及图像)来组织文档以保留原始外观。 固定格式文档提供一致且精确的格式布局,使得它们适用于涉及不被频繁或大量变更或其 中需要统一性的文档的任务。这样的任务的示例包括文档归档、高质量再现、以及用于广告 发布和打印的源文件。固定格式文档通常从流格式源文档中创建。固定格式文档还包括物 理(即,纸质)文档的数字再现(例如,扫描和照片)。 在其中需要编辑固定格式文档但流格式源文档不可用的情况下,固定格式文档必 须被转换成流格式文档。转换涉及解析该固定格式文档并将来自该固定格式文档的基本物 理布局元素变换成在流格式文档中使用的更复杂的逻辑元素。面对复杂元素(如水印、页 眉、页脚,和页码)的现有文档转换器诉诸于被设计成以输出文档的可流动性为代价保留 布局(例如,文本框、行间距、以及字符间距)的视觉保真度的基本技术。结果是需要用户 执行大量手动重构来获得真正有用的流格式文档的受限流格式文档。本专利技术正是对于这些 和其他考虑事项而做出的。 简要概述 提供以下简要概述以便以简化形式介绍将在以下详细描述中进一步描述的一些 概念。本简要概述并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限 制所要求保护主题的范围。 在各实施例中,模式匹配引擎检测在固定格式文档中形成重复模式 ...
【技术保护点】
一种用于标识在固定格式文档的不同页上重复的元素并对其进行分类的模式匹配方法,所述方法包括以下步骤:当元素具有相似内容并在所述固定格式文档的多个页面的相似位置上出现时将所述元素标识为候选;丢弃与过滤标准匹配的所述候选;以及当所述候选符合一组对应准则时,选择性地将所选的所述候选分类为页眉、页码,或水印。
【技术特征摘要】
【国外来华专利技术】1. 一种用于标识在固定格式文档的不同页上重复的元素并对其进行分类的模式匹配 方法,所述方法包括以下步骤: 当元素具有相似内容并在所述固定格式文档的多个页面的相似位置上出现时将所述 元素标识为候选; 丢弃与过滤标准匹配的所述候选;以及 当所述候选符合一组对应准则时,选择性地将所选的所述候选分类为页眉、页码,或水 印。2. 如权利要求1所述的模式匹配方法,其特征在于,所述将元素标识为候选的步骤还 包括以下步骤: 标识在第一页上的第一元素中出现的第一数字; 标识在第二页上的第二元素中出现的第二数字,所述第二数字与所述第一数字处于大 致相同的位置,所述第二页与所述第一页连续;以及 仅仅在所述第二数字和所述第一数字之差等于一时,将所述第一元素和所述第二元素 标识为所述重复元素。3. 如权利要求1所述的模式匹配方法,其特征在于,丢弃所述候选的步骤还包括:丢弃 没有在所述固定格式文档中的多于所选最小数量的页面上重复的所述候选的步骤。4. 如权利要求1所述的模式匹配方法,其特征在于,丢弃所述候选的步骤还包括:丢弃 没有在所述固定格式文档中的至少两个连续页面上重复的所述候选的步骤。5. 如权利要求1所述的模式匹配方法,其特征在于,丢弃所述候选的步骤还包括:丢弃 在所述固定格式文档中表现为行号的候选的步骤。6. 如权利要求1所述的模式匹配方法,其特征在于,选择性地对所选的所述候选进行 分类的步骤还包括:当所述候选在所述固定格式文档的所述第一页以后的所有页上的大致 相同位置上出现而且所有这样的候选具有相似内容时,将所述候选分类为水印的步骤。7. 如权利要求6所述的模式匹配方法,其特征在于,将所述候选分类为水印的步骤还 包括:当所述水印覆盖所述页面上等于或大于所选最小页面覆盖区域阈值的区域时,将所 述水印分类为页面色彩的步骤。8. 如权利要求6所述的模式匹配方法,其特征在于,将所述候选分类为水印的步骤还 包括:当所述水印由多个相连元素形成并具有包含所述页面上等于或大于所选最小页边界 区域阈值的区域的边界框时,将所述水印分类为页边界的步骤。9. 如权利要求1所述的模式匹配方法,其特征在于,选择性地对所选的所述候选进行 分类的步骤还包括:当所述候选显得是在所述固定格式文档的各页的最高的元素时,将所 述候选分类为页眉的步骤。10. 如权利要求1所述的模式匹配方法,其特征在于,选择性地对所选的所述候选进行 分类的步骤还包括:当所述候选表现为所述固定格式文档中的各页的最底部元素时,将所 述候选分类为页脚的步骤。11. 如权利要求1所述的模式匹配方法,其特征在于,选择性地对所选的所述候选进行 分类的步骤还包括:当在所述固定格式文档中的各页的所述候选上方出现的每个元素被分 类为页眉时,将所述候选也分类为页眉的步骤。12. 如权利要求1所述的模式匹配方法,其特征在于,选择性地对所选的所述候选进行 分类的步骤还包括:当在所述固定格式文档中的各页的所述候选下方出现的每个元素被分 类为页脚时,将所述候选也分类为页脚的步骤。13. 如权利要求1所述的模式匹配方法,其特征在于,还包括在选择性地对所选的所述 候选进行分类的步骤之后,重复所述丢弃...
【专利技术属性】
技术研发人员:V·约瓦诺维克,M·拉扎里维克,M·拉斯科维克,N·波兹达里维克,M·舍舒姆,
申请(专利权)人:微软公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。