当前位置: 首页 > 专利查询>微软公司专利>正文

矢量图分类引擎制造技术

技术编号:10458962 阅读:213 留言:0更新日期:2014-09-24 14:41
在本发明专利技术中描述并在附图中示出了矢量图分类引擎及相关联的用于对固定格式文档中的矢量图进行分类的方法。矢量图分类引擎定义用于对从固定格式文档中解析作为字体、文本、段落、表、以及页面效果(如阴影、边界、下划线、以及删除线)等的矢量图进行分类的流水线。没有被以其他方式分类的矢量图被指定为基本图。通过按所选次序对检测操作进行排序,最小化或消除了误分类。

【技术实现步骤摘要】
【国外来华专利技术】矢量图分类引擎 背景 流格式文档和固定格式文档被广泛使用并且具有不同的用途。流格式文档使用复 杂逻辑格式化结构(如章节、段落、列以及表)来组织文档。结果,流格式文档提供了灵活 性且易于修改,从而使得它们适用于涉及被频繁更新或受到显著编辑的文档的任务。相反, 固定格式文档使用基本物理布局元素(如文本串、路径、以及图像)来组织文档以保留原本 外观。固定格式文档提供一致且精确的格式布局,从而使得它们适用于涉及不被频繁或大 量变更或其中需要统一性的文档的任务。这样的任务的示例包括文档归档、高质量再现、以 及用于商业发布和打印的源文件。固定格式文档通常从流格式源文档中创建。固定格式文 档还包括物理(即,纸质)文档的数字再现(例如,扫描和照片)。 在其中需要编辑固定格式文档但流格式源文档不可用的情况下,固定格式文档可 被转换成流格式文档。转换涉及解析该固定格式文档并将来自该固定格式文档的基本物理 布局元素变换成流格式文档中使用的更复杂逻辑元素。面对复杂元素(如矢量图)的现有 文档转换器诉诸于被设计成以输出文档的可流动性为代价保留布局(例如,文本框、行间 距、以及字符间距)的视觉保真度的基本技术。结果是需要用户执行大量手动重构来获得 真正有用的流格式文档的受限流格式文档。本专利技术正是对于这些和其他考虑事项而做出 的。
技术实现思路
提供以下
技术实现思路
以便以简化形式介绍将在以下详细描述中进一步描述的一些 概念。本
技术实现思路
并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限 制所要求保护主题的范围。 由矢量图分类引擎执行的矢量图分类方法的一个实施例定义用于对从固定格式 文档中解析的数据中的矢量图进行分类的流水线。在各实施例中,矢量图分类操作依赖于 先前操作的输出。 从文本串阴影检测开始,矢量图分类引擎使用直接从固定格式文档解析的路径信 息来标识闭合路径和具有填充的路径。矢量图分类引擎分析所标识出的闭合路径和具有填 充的路径并确定看起来形成矩形的那些路径,并且定位该矩形内包含的文本串(如果有的 话)。包含填充且限定了文本串的边界的矩形被分类成文本串阴影。接着,矢量图分类引擎 基于各单独线的各体路径的所选特性来将这些路径聚集成复合线。聚集这些相关路径允许 矢量图分类引擎将它们作为单条线来分析。矢量图分类引擎将路径和定义与文本串在同一 方向上行进的各线的路径集合视为下划线和删除线候选。矢量图分类引擎分析从固定格式 文档中提取的文本以查看该线是否满足下划线或删除线的垂直和水平位置约束。在对与下 划线或删除线相对应的矢量图元素进行了分类之后,矢量图分类引擎分析其余矢量图元素 作为潜在文本串边界。包含文本串但不包含填充的矩形被认为是潜在文本串边界。 对于表检测,矢量图分类引擎基于矢量图元素的邻近度和连接性来将它们编组成 群集,并分析由各线形成的结构集。为了形成矩形表,矢量图分类引擎忽略交叉路径,因为 其最可能表示图。段落阴影检测和段落边界检测依赖于表检测的结果。表检测是按以下方 式执行的:检测带阴影的段落和带边界的段落作为单个单元表。矢量图分类引擎基于表在 各列中的位置来确定是将单个单元表维持为一个表还是将它转换成带阴影的段落或带边 界的段落。 在矢量图分类方法的各实施例中,页边界检测和页阴影(S卩,色彩)检测是使用与 用于文本串和/或段落阴影相同或相似的技术来完成的,但被应用于包含页面的全部或基 本上全部区域的矢量图。 不能被矢量图分类引擎以其他方式分类的任何矢量图元素被认为是基本图形元 素。基于各个体路径的连接性或邻近度,基本图形元素被聚集在一起以形成流格式文档中 的图片。在指示各个体矢量图元素的路径被连接或定位于少于由间隔距离阈值所表示的所 选距离时,矢量图分类引擎将这些矢量图元素置于各编组中。 一个或多个实施例的细节在附图和以下描述中阐明。通过阅读下面的具体实施例 并参考相关联的附图,其他特征和优点将变得显而易见。要理解的是下面的具体实施例仅 仅是说明性的,而不是对所要求保护的专利技术的限制。 附图简述 通过参考下面的【具体实施方式】、所附的权利要求书和附图,进一步的特征、各方面 和益处将变得更好理解,其中各元素不会缩放以更清晰地示出细节,在若干视图中,相同的 附图标记指示相同的元素,并且其中: 图1是示出包括矢量图分类引擎的系统的一个实施例的框图; 图2是示出文档处理器的一个实施例的操作流程的框图; 图3A-3E示出能够被所述矢量图分类引擎进行分类的各矢量图元素; 图4是矢量图分类引擎所执行的矢量图分类方法的一个实施例的流程图; 图5示出执行矢量图分类引擎的一个实施例的平板计算设备的一个实施例; 图6是可用其实践本专利技术的各实施例的计算设备的一个实施例的简化框图; 图7A示出执行矢量图分类引擎的一个实施例的移动计算设备的一个实施例; 图7B是可用其实践本专利技术的各实施例的移动计算设备的一个实施例的简化框 图;以及 图8是可在其中实施本专利技术的各实施例的分布式计算系统的简化框图。 详细描述 在本文中描述并在附图中示出了矢量图分类引擎及相关联的用于对固定格式文 档中的矢量图进行分类的方法。矢量图分类引擎定义用于对从固定格式文档中解析作为字 体、文本、段落、表、以及页面效果(如阴影、边界、下划线、以及删除线)等的矢量图进行分 类的流水线。没有被以其他方式分类的矢量图被指定为基本图。通过按所选次序对分类操 作进行排序,降低或消除了误分类。 图1是合并了矢量图分类引擎100的系统。在所示实施例中,矢量图分类引擎100 作为在计算设备104上执行的文档转换器102的一部分来操作。文档转换器102使用解析 器110、文档处理器112以及串行化器114将固定格式文档106转换成流格式文档108。解 析器110从固定格式文档106中提取数据。从固定格式文档提取的数据被写入文档处理器 112和串行化器114能访问的数据存储116。文档处理器112使用一个或多个检测和/或 重构引擎(例如,本专利技术的矢量图分类引擎100)分析该数据并将其转换成可流动元素。最 后,串行化器114将可流动元素写成可流动文档格式(例如,文字处理格式)。 图2更详细地示出了文档处理器112的操作流程的一个实施例。文档处理器112 包括可任选的光学字符识别(OCR)引擎202、布局分析引擎204以及语义分析引擎206。数 据存储116中包含的数据包括物理布局对象208和逻辑布局对象210。在一些实施例中, 物理布局对象208和逻辑布局对象210被分层安排在编组的类树阵列中(即,数据对象)。 在各实施例中,页面是物理布局对象208的顶级编组,而章节是逻辑布局对象210的顶级编 组。从固定格式文档106中提取的数据一般被存储为由固定格式文档106中的包含页面来 组织的物理布局对象208。从固定格式文档获得的基本物理布局对象包括文本串、图像以及 路径。文本串是页面内容流中的指定在显示固定格式文档时字符的绘制位置的文本元素。 图像是储存在固定格式文档106中的光栅图像(S卩,图片)。路径描述了诸如用于构建矢量 图的线、曲线(例如,三次贝塞尔曲线)以及文本轮廓等元素。 处理开始的本文档来自技高网...
矢量图分类引擎

【技术保护点】
一种用于对从固定格式文档解析成流格式矢量图元素的数据中出现的矢量图进行分类的矢量图分类方法,所述方法包括以下步骤:将来自固定格式文档的矢量图路径和文本串提取成物理布局数据对象,每一所述矢量图路径包括所述矢量图路径在所述固定格式文档的页面上的物理位置,每一所述文本串包括所述文本串在所述固定格式文档的页面上的物理位置;分析所述矢量图路径以将形成所选形状的一个或多个矢量图路径标识为矢量图,所述矢量图具有由所述矢量图路径所限定的物理位置;分析所述文本串以将所述文本串中位于靠近所选形状的物理位置的物理位置处的至少一个文本串标识为附近文本串;以及基于所选形状的所述物理位置与所述附近文本串的所述物理位置之间的关系来分类所述矢量图。

【技术特征摘要】
【国外来华专利技术】1. 一种用于对从固定格式文档解析成流格式矢量图元素的数据中出现的矢量图进行 分类的矢量图分类方法,所述方法包括以下步骤: 将来自固定格式文档的矢量图路径和文本串提取成物理布局数据对象,每一所述矢量 图路径包括所述矢量图路径在所述固定格式文档的页面上的物理位置,每一所述文本串包 括所述文本串在所述固定格式文档的页面上的物理位置; 分析所述矢量图路径以将形成所选形状的一个或多个矢量图路径标识为矢量图,所述 矢量图具有由所述矢量图路径所限定的物理位置; 分析所述文本串以将所述文本串中位于靠近所选形状的物理位置的物理位置处的至 少一个文本串标识为附近文本串;以及 基于所选形状的所述物理位置与所述附近文本串的所述物理位置之间的关系来分类 所述矢量图。2. 如权利要求1所述的矢量图分类方法,其特征在于,还包括在尝试将所述矢量图分 类为文本串阴影的所述步骤之后将所选矢量图路径聚集成单个形状的步骤。3. 如权利要求1所述的矢量图分类方法,其特征在于,将所选矢量图路径聚集成单个 形状的所述步骤还包括以下步骤: 选择与形状长度相对应的最小长度;以及 在所述矢量图路径的长度小于所述最小长度时,聚集具有相同垂直位置的多个所述矢 量图路径。4. 如权利要求1所述的矢量图分类方法,其特征在于,还包括基于逻辑布局数据对象 中的所述分类来存储信息的步骤。5. 如权利要求1所述的矢量图分类方法,其特征在于,还包括一旦所述矢量图已被分 类就从所述物理布局数据对象移除所述矢量图的步骤。6. 如权利要求1所述的矢量图分类方法,其特征在于,分类所述矢量图的所述步骤还 包括以下步骤: 基于所述矢量图与所述附近文本串之间的关系来将所述矢量图选择性地分类为文本 串效果; 在尝试将所述矢量图分类为文本串效果的所述步骤之后,基于所述矢量图与所述附近 文本串之间的关系来将先前未被分类的所述矢量图选择性地分类为字体效果; 在尝试将所述矢量图分类为字体效果的所述步骤之后,基于所述矢量图与所述附近文 本串之间的关系来将先前未被分类的所述矢量图选择性地分类为表边界; 在尝试将所述矢量图分类为表边界的所述步骤之后,基于所述矢量图与所述附近文本 串之间的关系来将先前未被分类的所述矢量图选择性地分类为段落效果; 在尝试将所述矢量图分类为段落效果的所述步骤之后,基于所述矢量图与所述附近文 本串之间的关系来将先前未被分类的所述矢量图选择性地分类为页面效果;以及 当所述矢量图在先前步骤中未被分类时,将先前未被分类的所述矢量图分类为基本图 图像。7. 如权利要求6所述的矢量图分类方法,其特征在于,所选形状是包含填充的矩形,将 所述矢量图选择性地分类为文本串阴影的所述步骤还包括在所述附近文本串被包含在所 述矢量图内时将所述矢量图分类为文本串阴影的步骤。8. 如权利要求7所述的矢量图分类方法,其特征在于,还包括在所述矢量图具有的高 度比所述附近文本串的高度高所选阈值距离以上时延迟将所述矢量图分类为文本串阴影 的步骤。9. 如权利要求6所述的矢量图分类方法,其特征在于,所选形状是不包含填充的矩形, 将所述矢量图选择性地分类为文本串边界的所述步骤还包括在所述附近文本串被包含在 所述矢量图内时将所述矢量图分类为文本串边界的步骤。10. 如权利要求6所述的矢量图分类方法,其特征在于,所选形状是与所述附近文本 串的方向平行行进的线,将所述矢量图选择性地分类为字体效果的所述步骤还包括以下步 骤: 在所述矢量图物理位置在下方且在距所述附近文本串物理位置的所选阈值距离内时 将所述矢量图分类为下划线;以及 在所选形状物理位置重叠且处于所述附近文本串高度的所选范围内时将所述矢量图 分类为删除线。11. 如权利要求6所述的矢量图分类方法,其特征在于,将所述矢量图选择性地分类为 表的所述步骤还包括在所述矢量图与页面上的列中的文本重叠时将所述矢量图分类为表 的步骤。12. 如权利要求11所述的矢量图分类方法,其特征在于,所述表是包含填充的单列表, 将所述矢量图选择性地分类为段落阴影的所述步骤还包括在所述矢量图不与页面上的列 中的文本重叠时将所述矢量图分类为段落阴影的步骤。13. 如权利要求11所述的矢量图分类方法,其特征在于,所述表是不包含填充的单列 表,将所述矢量图选择性地分类为段落边界的所述步骤还包括在所述矢量图不与页面上的 列中的文本重叠时将所述矢量图分类为段落边界的步骤。14. ...

【专利技术属性】
技术研发人员:M·舍舒姆M·拉斯科维克D·扎里克M·拉扎里维克A·奥布尔简
申请(专利权)人:微软公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1