当前位置: 首页 > 专利查询>谷歌公司专利>正文

后光学字符识别处理中的形状聚类制造技术

技术编号:5472273 阅读:180 留言:0更新日期:2012-04-11 18:40
用于在包括光学字符识别(OCR)处理的输出的各种文档处理中的应用和形状聚类的技术和系统。

【技术实现步骤摘要】
【国外来华专利技术】
本说明书涉及形状聚类和光学字符识别。
技术介绍
光学字符识别(OCR)使用一般将被称作OCR引擎的计算机软件 来对原本在纸张、縮影胶片或其它介质上印刷的、打字的、手写的或 其它书写文本的数字图像进行处理,并且从所述图像产生机器可识别 和可编辑的文本。通过OCR引擎处理的文档的数字图像可包括多页书 写材料的图像。要由OCR引擎进行处理的文本的图像可通过各种成像 方法来获取,包括使用图像扫描仪来捕捉文本的数字图像。OCR引擎通常产生矩形边框旨在共同地围住每个页面上所写的文本。通常,当文档图像具有灰度或色彩信息时,OCR引擎对所述图像 进行二进制化以使得将每个图像像素确定为前景像素(例如,黑色文 本)或背景像素(例如,白色区域)。每个边框通常围住OCR引擎所感知(perceive)的一个字符的文本像素的一个或多个连接群组,但是 也可以与相邻字符的一部分重叠,或者在极端情况下,可以完全重叠。 在这样的情形中,现有几种方法将OCR引擎识别为属于所述边框内部 的像素与属于不同但重叠边框的像素分离。这些方法包括通过阈值 和所连接成分的分析来生成掩膜图像,构建轮廓多边形,并且构建并 行四边形的边框。OCR引擎通常为每个边框指派一个或多个OCR字符 码。每个OCR码识别所述引擎已认出在该边框内的一个或多个字符。 如果OCR引擎无法认出边框中的任何字符,则其可不向该边框指派 OCR字符码。OCR字符码所识别的每个字符可以以标准字符编码进行 表示,例如ASCII或统一字符编码。每个边框可被认为是对文档图像的一部分或小图像进行隔离的剪 切(dipping)路径,无论其为原始形式或经二进制化的二进制形式。 由于这些小图像可被认为是由其相应的边框从文档图像剪切而来,所以这些小图像将被称作剪切(clip)或剪切图像。由于每个剪切图像被 绑定到边框、OCR字符码,所以指派给边框的字符也能够被称作或识 别为指派给所述剪切图像的代码或字符。除非另外指出,术语剪切或 剪切图像是指作为文档图像的一部分并且由OCR引擎所处理以便进行 字符识别的图像。OCR引擎在该处理期间可能产生错误。例如,OCR引擎通过例如 仅包括边框中的部分字符或包括在单个边框中被认作单个字符的多个 字符而对原始图像进行了不正确分割。作为另一个示例,OCR引擎由 于边框所围住的剪切图像和用于不同字符码的参考图像之间的一些图 像相似性或者由于该OCR引擎所接收的数字图像的低图像质量而对边 框指派不正确的OCR字符。
技术实现思路
除其它内容之外,该说明书描述了用于在包括光学字符识别 (OCR)处理的输出在内的各种文档的处理中进行形状聚类和应用的 技术和系统。在一个方面, 一种方法可包括以下将在所接收的由OCR处理所 处理的文档的OCR输出中限定的剪切图像归类为剪切图像的集群;处 理每个集群中的剪切图像以生成每个集群的集群图像;比较所述集群 图像来检测所述OCR处理对其错误指派了一个或多个OCR字符码的集 群;对OCR输出中被检测为具有错误指派的一个或多个OCR字符码的 第一集群指派一个或多个新的OCR字符码;并且在所述OCR输出中的 第一集群的剪切图像之一每次出现时使用所述一个或多个新的OCR字 符码替代错误指派的OCR字符码以产生经修改的OCR输出。每个集群 包括被OCR处理指派了相同的一个或多个字符码的剪切图像。在另一个方面, 一种用于光学字符识别(OCR)的系统可包括OCR 引擎和后OCR引擎。所述OCR引擎可操作来处理文档的原始图像以产 生包括从所述原始图像提取的剪切图像的OCR输出并且向每个剪切图 像指派一个或多个字符。所述后OCR引擎可操作来将所述OCR输出的 剪切图像归类为剪切图像的集群。每个集群包括被OCR引擎指派了相 同的一个或多个字符码的剪切图像。所述后OCR引擎可操作来对每个 集群中的剪切图像进行处理以生成每个集群的集群图像并且将所述集 群图像进行比较以检测被OCR引擎错误指派了一个或多个OCR字符码 的集群。所述后OCR引擎进一步被操作来对OCR输出中被检测为具有 错误指派的一个或多个OCR字符码的第一集群指派一个或多个新的 0CR字符码,并且在所述OCR输出中的第一集群的剪切图像之一每次 出现时使用所述一个或多个新的OCR字符码替代错误指派的OCR字符 码以产生经修改的OCR输出。在另一个方面, 一种用于后光学字符识别(OCR)处理的方法可包括将在所接收的由光学字符识别(OCR)处理所处理的文档的OCR 输出中限定的剪切图像归类为剪切图像的集群;处理每个集群中的剪 切图像以生成每个集群的集群图像。每个集群包括大小相同或相似并 且被OCR处理指派了相同的一个或多个字符码的剪切图像。对于被指 派了一个或多个第一OCR字符码的第一集群,该方法识别(l)被指 派了与所述一个或多个第一OCR字符码不同的一个或多个第二OCR字 符码的第二集群,其中所述第二集群的集群图像在形状上相比被指派 了与所述一个或多个第一OCR字符码不同的一个或多个OCR字符的其 它集群的集群图像更接近所述第一集群的集群图像,和(2)被指派了 与第一集群相同的一个或多个第一OCR字符码的第三集群,其中所述 第三集群的集群图像在形状上比被指派了一个或多个第一OCR字符码 的其它集群的集群图像更接近所述第一集群的集群图像。该方法至少 使用第一集群和第二集群的集群图像之间的形状差异以及第一集群和 第三集群的集群图像之间的形状差异来确定指派给第一集群的一个或 多个第一OCR字符码的置信等级。在另一个方面, 一种用于光学字符识别(OCR)的系统可包括OCR 引擎和后OCR引擎。所述OCR引擎可操作来处理文档的原始图像以产 生包括从所述原始图像提取的剪切图像的OCR输出并且向每个剪切图 像指派一个或多个字符;并且所述后OCR引擎可操作来将所述OCR输 出的剪切图像归类为剪切图像的集群。每个集群包括大小相同或相似 并且被OCR引擎指派了相同的一个或多个字符码的剪切图像。所述后 OCR引擎可操作来对每个集群中的剪切图像进行处理以生成每个集群 的集群图像。所述后OCR引擎还可操作来对于被指派了一个或多个第 一OCR字符码的第一集群识别(1)被指派了与所述一个或多个第一 OCR字符码不同的一个或多个第二OCR字符码的第二集群,其中所述 第二集群的集群图像在形状上相比被指派了与所述一个或多个第一OCR字符码不同的一个或多个OCR字符的其它集群的集群图像更接近 所述第一集群的集群图像,和(2)被指派了与第一集群相同的一个或 多个第一OCR字符码的第三集群,其中所述第三集群的集群图像在形状上比被指派了一个或多个第一OCR字符码的其它集群的集群图像更 接近所述第一集群的集群图像。在该系统中,所述后OCR引擎可操作 来至少使用第一集群和第二集群的集群图像之间的形状差异以及第一 集群和第三集群的集群图像之间的形状差异来确定指派给第一集群的一个或多个第一OCR字符码的置信等级。在另一个方面, 一种用于光学字符识别(OCR)的系统可包括集 群生成引擎和集群处理引擎。所述集群生成引擎可操作来接收OCR输 出,该OCR输出具有OCR引擎在处理文档的原始图像时所产生的分离 图像以及由所述OCR引擎向每个分离图像指派本文档来自技高网
...

【技术保护点】
一种方法,包括: 将在所接收的由光学字符识别(OCR)处理所处理的文档的OCR输出中限定的剪切图像归类为剪切图像的多个集群,每个集群包括被所述OCR处理指派了相同的一个或多个字符码的剪切图像; 处理所述多个集群中的每一个中的剪切 图像,以生成每个集群的集群图像; 比较所述集群图像来检测被所述OCR处理对其错误指派了一个或多个OCR字符码的集群; 对所述OCR输出中被检测为具有错误指派的一个或多个OCR字符码的第一集群指派一个或多个新的OCR字符码;以及   在所述OCR输出中每次出现所述第一集群的所述剪切图像中的一个时使用所述一个或多个新的OCR字符码替代错误指派的OCR字符码以产生经修改的OCR输出。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:路克文森特雷蒙德W史密斯
申请(专利权)人:谷歌公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1