当前位置: 首页 > 专利查询>微软公司专利>正文

光学字符识别中的技术制造技术

技术编号:6943530 阅读:322 留言:0更新日期:2012-04-11 18:40
将图像纠偏系统和技术用于光学字符识别的上下文中。获取以原始线性(水平)定向的原始字符集的图像。相对于该原始线性定向偏斜一旋转角的所获取的字符集由该图像的像素表示。估计该旋转角,且可以将置信度值与该估计关联起来,以便判断是否纠偏该图像。结合旋转角估计,将边缘检测滤波器应用于所获取的字符集以便产生边缘图,将该边缘图输入到线性霍夫变换滤波器以便以参数形式产生一组输出线。给各输出线分配分数,且基于各分数将具有接近旋转角的斜率的至少一个输出线判断为主导线。

【技术实现步骤摘要】

本专利技术涉及计算机技术,更具体地,涉及光学字符识别技术。
技术介绍
光学字符识别技术可用于解码使用包括但不限于扫描仪和数码相机在内的各种类型的图像捕捉设备获得的诸如水平的文本行之类的字符的图像。通常,图像捕捉设备的定向的变动或在其上显示字符的表面(例如,纸)的变动产生具有相对于原始字符变形的字符的图像。例如,文本行的图像通常相对于页面上的原始文本行而偏斜或旋转。难以可靠地解码图像内偏斜的或旋转的文本行。
技术实现思路
将可以在基于网络的或基于客户机的操作环境中实现其各方面的图像纠偏系统 (“IDS”)和技术用于光学字符识别的上下文中,用来在具有原始线性定向的原始字符集的图像内估计图像中具有所获取的线性定向的对应的所获取的字符集的旋转角(相对于原始线性定向)。根据一种技术,通过将边缘检测滤波器应用到所获取的字符集(或其一个或多个区域或子区域)来估计旋转角以便产生边缘图。边缘图包括“边缘像素”,边缘像素是该图像的沿着与所获取的字符集相关联的一条或多条线的像素,例如中线或基线。边缘图被输入到线性霍夫(hough)变换滤波器以便产生一组(r,θ)参数形式的输出线。输出线由矩阵的元素表示,每一像素向特定输出线贡献一“投票”。给每一输出线分配分数(例如,基于投票的数量)。基于各分数,标识一个或多个主导输出线及其对应于输出线的参数θ的斜率,且从而标识所估计的旋转角。根据另一技术,也可以计算表示所估计的旋转角紧密地逼近实际旋转角的似然的置信度值。通常,所估计的旋转角的置信度取决于具有在所获取的字符集的一个或多个区域或子区域内检测到的相似的斜率的主导文本行的数量和分布。其中,置信度值可以用来判断是否在进行进一步的光学字符识别处理活动之前纠偏图像。提供本概述以便以简化形式化介绍概念的选集。在详细描述部分中进一步描述这些概念。与在本概述中所描述的那些元素或步骤不同的元素或步骤是可能的,且不必定要求某一元素或步骤。本概述不旨在标识所要求保护的本主题的关键特征或必要特征,也不旨在用于辅助判断所要求保护的本主题的范围。所要求保护的本主题不限于解决此文档的任何部分中提到的任何或所有缺点的实现。附图说明图1是示出显示原始字符集的示例表面的框图,该原始字符集的偏斜图像被图像捕捉设备捕捉并被图像纠偏系统(“IDS”)和光学字符识别(“OCR”)管线处理。图2示出图1中示出的图像捕捉设备所获取的示例图像,该图像包括单个文本行。图3是图1中示出的IDS的简化功能框图。图4是用于使用图1和图3中示出的IDS的各方面来估计由图像捕捉设备捕捉的图像偏斜的旋转角以及判断这样的估计中的置信度的方法的流程图。图5示出图3中示出的边缘检测器的输入和输出的示例。图6是由图3中示出的线检测器生成的示例输出线的参数的图形表示。图7是促进具有由图3中示出的线检测器生成的主导斜率的输出线的标识的示例矩阵的图形表示。图8是其中可以实现或使用图1和图3中示出的IDS的所有或部分或图4中示出的方法的操作环境的示例配置的简化功能框图。具体实施例方式在此描述的图像纠偏系统(“IDS”)和技术在基于客户机和/或基于网络的设备中操作,以便以某种置信度估计在图像内所获取的字符集的旋转角。所获取的字符集对应于以原始线性定向被显示在表面上的原始字符集。在此讨论的技术对于增强字符的图像的准确和有效解码是有用的。现在转到附图,其中相同的数字标明相同的组件,图1是示出具有原始线性定向 105的原始字符集104被显示在其上的示例表面102的简化功能框图。出于讨论而非限制的目的,在此假设原始字符集包括一个或多个文本行(在页面的一个或多个区域或子区域中),且原始线性定向是水平。可以是诸如扫描仪或数码相机之类的任何已知的或后来开发的设备的图像捕捉设备106获取(偏斜的)图像111。图像111被输入到IDS 101并由 IDS 101处理(下面结合图3进一步讨论),以便产生经纠偏的图像113,正如所示出的,图像113在光学字符识别(“OCR”)管线122处进一步经受解码,以便产生经解码的数字输出页面122。IDS 101的各方面可以与图像捕捉设备106和/或OCR管线120定位在一起,或远程地位于 一个或多个分离的设备上。继续参考图1,图2示出图像111的示例部分——对应于以原始线性定向105(水平)被显示在表面102上的原始字符集104的所获取的字符集204(示出单个文本行)。可以看出,所获取的字符集的每一字符由图像111中的像素组210表示。一般地,像素组210 包括基于图像111的分辨率和/或图像捕捉设备106的其它特性的许多像素。每一像素具有灰度级值。示出像素1到N;像素1211具有灰度级值1212且像素N 215具有灰度级值 216。可以看出,所获取的字符集204具有所获取的线性定向205,该线性定向205相对于原始线性定向105以由旋转角222的值表示的量偏斜,可以使用IDS 101和/或在此描述的技术来估计旋转角222的值。准确地估计旋转角222的值使得可以在解码图像111中的所获取的字符集204之前对图像111进行纠偏,这增强了准确的解码,因为解码算法通常假设字符的行是水平的。可以经由OCR管线120使用任何已知的或后来开发的图像处理技术 (在此既不进一步讨论具体的纠偏技术也进一步讨论OCR管线120的图像处理技术)来完成字符解码。继续参考图1和图2,图3是(图1中示出的)IDS 101的简化功能框图,它包括旋转角估计器302和估计置信度计算器350。一般地,设计选择和/或操作环境规定如何实现和在哪里实现IDS 101的具体功能(例如,在客户机端操作环境或服务器端操作环境中)。可以使用硬件、软件、固件、或其组合来实现这样的功能。旋转角估计器302负责估计图像中的所获取的字符集相对于对应的原始字符集的原始定向所偏斜的量——也就是说,估计诸如图2中示出的旋转角222之类的旋转角的值。旋转角估计器302包括产生边缘像素307的边缘图306的边缘检测器304和产生输出线311和它们的分数313以及矩阵312的线检测器310。下面结合图4-图8进一步讨论关于旋转角估计器302的实现和操作的进一步细节。估计置信度计算器350负责提供表示已经估计的一个或多个旋转角的置信度的置信度值351。基于置信度值,在经由OCR管线120进行进一步处理之前,可以将图像纠偏 (或不纠偏)以纠正图像捕捉过程引入的旋转变形。下面结合图4进一步讨论关于估计置信度计算器350的实现和操作的进一步细节。继续参考图1-图3,图4是示出用于使用IDS 101的各方面来估计由图像捕捉设备(例如图像捕捉设备106)捕捉的图像(例如图像111)所偏斜的旋转角(例如旋转角 222)以及计算这样的估计中的置信度(置信度可以被用来决定是否在进一步的OCR处理/ 解码之前对图像进行纠偏)的示例方法的流程图。一般地,如果特定的图像(页面)内的文本行的主导斜率可以被标识,则该主导斜率可以被用来计算旋转角。图4中示出的方法可以由计算机可执行指令(例如结合图8示出和讨论的计算机可执行指令806)实现,被存储在计算机可读存储介质(也结合图8示出和讨论计算机可读存储介质804)中且由一个或多个通用处理器、多用途处理器或专用处理器(例如也结合本文档来自技高网...

【技术保护点】
1.一种用计算机可执行指令(806)编码的计算机可读存储介质(804)当所述计算机可执行指令被处理器(802)执行时,执行一种用于识别以原始线性定向(105)被显示在表面(102)上的原始字符集(104)的字符的方法(400),所述方法包括:在所述原始字符集的图像(111)内,标识(402)由所述图像的像素(210)表示的所获取的字符集(204),所获取的字符集具有相对于所述原始线性定向偏斜一旋转角(222)的所获取的线性定向(205);将边缘检测滤波器(304)应用(404)到所获取的字符集以便产生边缘图(306),所述边缘图标识包括所述图像的沿着与所获取的字符集相关联的多条线的像素在内的边缘像素(307);将所述边缘图输入(406)到线性霍夫变换滤波器(310)以便以(r,θ)参数形式产生一组输出线(311),其中对于每一输出线,r是垂直于所述输出线而画出的法线在原点和所述输出线所经过的特定边缘像素之间的长度,且θ是所述法线与水平轴形成的夹角;形成(408)具有行和列的矩阵(312),特定输出线(r,θ)所经过的所述边缘像素中的每一个由所述矩阵的位于所述特定输出线的对应于θ的特定行和所述特定输出线的对应于r的特定列的元素来表示;给每一输出线分配分数(313),所述分数基于在所述特定输出线的所述对应于θ的特定行内的边缘像素的离差;基于所述分数,在所述一组输出线内,标识(412)至少两个主导输出线(rdom1,θdom1)和(rdom2,θdom2);计算(416)对应于θdom1估计所述旋转角的似然的第一置信度值(351)计算(416)对应于θdom2估计所述旋转角的似然的第二置信度值(351);以及基于所述第一置信度值和第二置信度值,判断是θdom1还是θdom2估计所述旋转角。...

【技术特征摘要】
...

【专利技术属性】
技术研发人员:D·尼耶姆切维奇S·加利克
申请(专利权)人:微软公司
类型:发明
国别省市:US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1