【技术实现步骤摘要】
【国外来华专利技术】矢量图分类引擎 背景 流格式文档和固定格式文档被广泛使用并且具有不同的用途。流格式文档使用复 杂逻辑格式化结构(如章节、段落、列以及表)来组织文档。结果,流格式文档提供了灵活 性且易于修改,从而使得它们适用于涉及被频繁更新或受到显著编辑的文档的任务。相反, 固定格式文档使用基本物理布局元素(如文本串、路径、以及图像)来组织文档以保留原本 外观。固定格式文档提供一致且精确的格式布局,从而使得它们适用于涉及不被频繁或大 量变更或其中需要统一性的文档的任务。这样的任务的示例包括文档归档、高质量再现、以 及用于商业发布和打印的源文件。固定格式文档通常从流格式源文档中创建。固定格式文 档还包括物理(即,纸质)文档的数字再现(例如,扫描和照片)。 在其中需要编辑固定格式文档但流格式源文档不可用的情况下,固定格式文档可 被转换成流格式文档。转换涉及解析该固定格式文档并将来自该固定格式文档的基本物理 布局元素变换成流格式文档中使用的更复杂逻辑元素。面对复杂元素(如矢量图)的现有 文档转换器诉诸于被设计成以输出文档的可流动性为代价保留布局(例如,文本框、行间 距、以及字符间距)的视觉保真度的基本技术。结果是需要用户执行大量手动重构来获得 真正有用的流格式文档的受限流格式文档。本专利技术正是对于这些和其他考虑事项而做出 的。
技术实现思路
提供以下
技术实现思路
以便以简化形式介绍将在以下详细描述中进一步描述的一些 概念。本
技术实现思路
并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限 制所要求保护主题的范围。 由矢量图分类引擎执行的矢量图分类方法 ...
【技术保护点】
一种用于对从固定格式文档解析成流格式矢量图元素的数据中出现的矢量图进行分类的矢量图分类方法,所述方法包括以下步骤:将来自固定格式文档的矢量图路径和文本串提取成物理布局数据对象,每一所述矢量图路径包括所述矢量图路径在所述固定格式文档的页面上的物理位置,每一所述文本串包括所述文本串在所述固定格式文档的页面上的物理位置;分析所述矢量图路径以将形成所选形状的一个或多个矢量图路径标识为矢量图,所述矢量图具有由所述矢量图路径所限定的物理位置;分析所述文本串以将所述文本串中位于靠近所选形状的物理位置的物理位置处的至少一个文本串标识为附近文本串;以及基于所选形状的所述物理位置与所述附近文本串的所述物理位置之间的关系来分类所述矢量图。
【技术特征摘要】
【国外来华专利技术】1. 一种用于对从固定格式文档解析成流格式矢量图元素的数据中出现的矢量图进行 分类的矢量图分类方法,所述方法包括以下步骤: 将来自固定格式文档的矢量图路径和文本串提取成物理布局数据对象,每一所述矢量 图路径包括所述矢量图路径在所述固定格式文档的页面上的物理位置,每一所述文本串包 括所述文本串在所述固定格式文档的页面上的物理位置; 分析所述矢量图路径以将形成所选形状的一个或多个矢量图路径标识为矢量图,所述 矢量图具有由所述矢量图路径所限定的物理位置; 分析所述文本串以将所述文本串中位于靠近所选形状的物理位置的物理位置处的至 少一个文本串标识为附近文本串;以及 基于所选形状的所述物理位置与所述附近文本串的所述物理位置之间的关系来分类 所述矢量图。2. 如权利要求1所述的矢量图分类方法,其特征在于,还包括在尝试将所述矢量图分 类为文本串阴影的所述步骤之后将所选矢量图路径聚集成单个形状的步骤。3. 如权利要求1所述的矢量图分类方法,其特征在于,将所选矢量图路径聚集成单个 形状的所述步骤还包括以下步骤: 选择与形状长度相对应的最小长度;以及 在所述矢量图路径的长度小于所述最小长度时,聚集具有相同垂直位置的多个所述矢 量图路径。4. 如权利要求1所述的矢量图分类方法,其特征在于,还包括基于逻辑布局数据对象 中的所述分类来存储信息的步骤。5. 如权利要求1所述的矢量图分类方法,其特征在于,还包括一旦所述矢量图已被分 类就从所述物理布局数据对象移除所述矢量图的步骤。6. 如权利要求1所述的矢量图分类方法,其特征在于,分类所述矢量图的所述步骤还 包括以下步骤: 基于所述矢量图与所述附近文本串之间的关系来将所述矢量图选择性地分类为文本 串效果; 在尝试将所述矢量图分类为文本串效果的所述步骤之后,基于所述矢量图与所述附近 文本串之间的关系来将先前未被分类的所述矢量图选择性地分类为字体效果; 在尝试将所述矢量图分类为字体效果的所述步骤之后,基于所述矢量图与所述附近文 本串之间的关系来将先前未被分类的所述矢量图选择性地分类为表边界; 在尝试将所述矢量图分类为表边界的所述步骤之后,基于所述矢量图与所述附近文本 串之间的关系来将先前未被分类的所述矢量图选择性地分类为段落效果; 在尝试将所述矢量图分类为段落效果的所述步骤之后,基于所述矢量图与所述附近文 本串之间的关系来将先前未被分类的所述矢量图选择性地分类为页面效果;以及 当所述矢量图在先前步骤中未被分类时,将先前未被分类的所述矢量图分类为基本图 图像。7. 如权利要求6所述的矢量图分类方法,其特征在于,所选形状是包含填充的矩形,将 所述矢量图选择性地分类为文本串阴影的所述步骤还包括在所述附近文本串被包含在所 述矢量图内时将所述矢量图分类为文本串阴影的步骤。8. 如权利要求7所述的矢量图分类方法,其特征在于,还包括在所述矢量图具有的高 度比所述附近文本串的高度高所选阈值距离以上时延迟将所述矢量图分类为文本串阴影 的步骤。9. 如权利要求6所述的矢量图分类方法,其特征在于,所选形状是不包含填充的矩形, 将所述矢量图选择性地分类为文本串边界的所述步骤还包括在所述附近文本串被包含在 所述矢量图内时将所述矢量图分类为文本串边界的步骤。10. 如权利要求6所述的矢量图分类方法,其特征在于,所选形状是与所述附近文本 串的方向平行行进的线,将所述矢量图选择性地分类为字体效果的所述步骤还包括以下步 骤: 在所述矢量图物理位置在下方且在距所述附近文本串物理位置的所选阈值距离内时 将所述矢量图分类为下划线;以及 在所选形状物理位置重叠且处于所述附近文本串高度的所选范围内时将所述矢量图 分类为删除线。11. 如权利要求6所述的矢量图分类方法,其特征在于,将所述矢量图选择性地分类为 表的所述步骤还包括在所述矢量图与页面上的列中的文本重叠时将所述矢量图分类为表 的步骤。12. 如权利要求11所述的矢量图分类方法,其特征在于,所述表是包含填充的单列表, 将所述矢量图选择性地分类为段落阴影的所述步骤还包括在所述矢量图不与页面上的列 中的文本重叠时将所述矢量图分类为段落阴影的步骤。13. 如权利要求11所述的矢量图分类方法,其特征在于,所述表是不包含填充的单列 表,将所述矢量图选择性地分类为段落边界的所述步骤还包括在所述矢量图不与页面上的 列中的文本重叠时将所述矢量图分类为段落边界的步骤。14. ...
【专利技术属性】
技术研发人员:M·舍舒姆,M·拉斯科维克,D·扎里克,M·拉扎里维克,A·奥布尔简,
申请(专利权)人:微软公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。