当前位置: 首页 > 专利查询>微软公司专利>正文

包括经历OCR处理的文本的图像的分辨率调整制造技术

技术编号:7978468 阅读:197 留言:0更新日期:2012-11-16 05:36
本发明专利技术提供了将接收到的图像重新缩放成最佳尺寸以便经受光学字符识别(OCR)处理的系统和方法。该系统包括最佳尺寸确定组件,其为图像确定最佳尺寸,以便不影响精度地使接收到的图像的处理时间最小化。最佳尺寸确定组件至少部分根据文本的主导行间距和主导文本高度确定图像的最佳尺寸。该系统还包括重新缩放组件,其将接收到的图像的尺寸重新调整成所确定的最佳尺寸。

【技术实现步骤摘要】
【国外来华专利技术】包括经历OCR处理的文本的图像的分辨率调整
技术介绍
光学字符识别(OCR)是一般在标准编码方案下,文本的图像到如机器可编辑文本的数字形式的基于计算机的转换。这个过程消除了将文档手工打字到计算机系统中的需要。由于差的图像质量、扫描过程造成的瑕疵等,可能引起许多不同的问题。例如,传统OCR引擎可以与扫描文本页面的平板扫描仪耦合。由于页面直接靠着扫描仪的扫描表面放置,因此扫描仪生成的图像通常呈现均匀的对比度和照明、减小的扭曲和失真以及高的分辨率。因此,OCR引擎可以容易地将图像中的文本转换成机器可编辑文本。然而,当图像关于对比度、亮度、扭曲等的质量较差时,OCR引擎的性能可能下降,并且处理时间可能由于处理图像中的所有像素而增加。例如,当图像由基于成像器的扫描仪生成时,可能就是这种情况,这是由于从远处、从变化的取向以及以变化的照明扫描文本/图片。即使扫描过程的性能是好的,当正扫描相对低质量的文本页面时,OCR引擎的性能也可能下降。
技术实现思路
进行OCR所需要的处理的图像的数量可能相当大,这需要大量的时间和处理能力。图像处理过程的持续时间几乎完全取决于输入图像尺寸。因此,当分辨率的任何进一步降低得到更低的精度,而同时分辨率的提高不会得到明显更好的精度时,可以认为该图像尺寸是最佳的(针对图像预处理过程而言)。这样,图像预处理算法在要求尽可能少的时间的同时提供了良好的精度。在一个实现方式中,图像的最佳尺寸根据图像中的文本的两种特性、具体地说,文本X-高度CW)和行间距(7Z幻来确定。一旦知道这些值,就可以精确地计算最佳图像分辨 率。由于这些特性在整个图像中可能不是一致的,因此可以使用它们在整个图像中的主导值。在一种特定实现方式中,使用自相关函数确定主导行间距,并使用互相关函数确定主导文本X-高度。一旦确定了最佳尺寸,就将图像的尺寸重新调整成这个最佳尺寸。提供该
技术实现思路
部分是为了介绍下面在具体实施方式部分中进一步描述的简化形式的概念的选择。该
技术实现思路
部分不是打算标识要求保护主题的关键特征或必要特征,也不是打算用于帮助确定要求保护主题的范围。附图说明图I示出用于光学字符识别的系统的一个示例性例子。图2示出了示例作为输入像素数量的函数的OCR处理时间。图3示例作为输入像素数量的函数的OCR处理的可达到精度。图4示出从图的顶部到底部分辨率分别降低2倍、4倍和8倍的文字。图5示例分辨率变化对相邻两行文本的影响,其示出从图的顶部到底部分辨率分另Ij降低2倍和4倍。图6示例一个文本样本的主导文本X-高度和主导行间距。图7示出包括文本的样本图像以及如通过索贝尔(Sobel)滤波器确定的该图像的水平边缘的垂直投影。图8示出在右侧的原始图像、在左侧的索贝尔滤波器的主导峰的垂直投影、以及在中间的自相关。图9示出在其左上部的原始图像、在右上部的该图像的索贝尔边缘的垂直投影、在左下部的该垂直投影的自相关和在右下部的该自相关的幅度谱。图10示出输入图像的正(图的右部)和负(图的左部)边缘投影的互相关的例子。图11是示出将接收到的图像重新缩放成最佳尺寸的过程的一个例子的流程图。图12示出执行重新缩放过程的图像处理装置的一个例子。具体实施方式 图I示出用于图像中的光学字符识别(OCR)的系统5的一个示例性例子,该系统5包括生成文档15的图像的数据捕获装置(例如,扫描仪10)。扫描仪10可以是基于成像器的扫描仪,其利用作为图像传感器的电荷耦合器件生成图像。扫描仪10处理图像以生成输入数据,并将输入数据发送给用于图像内的字符识别的处理装置(例如,OCR引擎20)。在这个特定例子中,OCR引擎20被并入扫描仪10中。然而,在其它例子中,OCR引擎20可以是诸如独立单元的分立单元或者并入诸如PC、服务器之类的另一设备中的单元。OCR引擎20应用的算法一般受制于两个目标高精度和低执行时间。显然,这两个目标截然相反;较高的执行时间允许附加处理,其产生较高精度,而较少的处理节省了时间但导致较低精度。因此,必须作出一些妥协。不幸的是,图像预处理一般是相当漫长的。例如,普通图像通常包含数百万个像素,这意味着图像预处理算法具有该相同数量的输入要进行评估和处理。图像处理程序的持续时间几乎完全取决于输入图像尺寸,即,图像尺寸越高,则所需的时间越多。因此,应该在不影响精度的情况下缩小输入图像以便达到最佳可能性能,或在某些可接受的性能恶化的情况下放大输入图像以便使精度最高。换言之,将输入图像重新缩放成最佳图像尺寸应该保证精度与执行时间之间的最佳可能折衷。解决这个问题的一种方式是要认识到并非图像中的所有像素都携带相同的信息量。因此,并不需要处理所有像素来达到良好的精度。事实上,情况可能是这样一些像素未携带对于成功处理而言足够的信息(或至少未以方便的形式携带信息)。这也意味着,取决于图像结构,可以改变输入图像的尺寸,以在精度和执行时间两个方面都达到最佳处理。理论上,执行时间是输入像素数量的单调递增函数;对于精度也是这样。然而,这两个函数具有相当不同的形式。图2示出作为输入像素数量的函数的处理时间的粗略例子。另一方面,图3示出作为输入像素数量的函数的可达到精度的粗略例子。显然,图2示出执行时间相对于输入像素数量是线性的。另一方面,精度起初迅速提高,但在某个点上开始饱和。即,精度曲线渐近地接近最大可能精度。饱和点代表为了达到精度与执行时间之间的最佳可能折衷,图像预处理组件需要接收的最佳像素数量。之前的分析得出用于导出这里展示的分辨率自适应算法的原则。如果分辨率的任何进一步降低产生更低的精度,而分辨率的提高不会产生明显更好的精度,则图像尺寸是最佳的(针对图像预处理过程而言)。换言之,存在至多可能达到的回报递减点,在该点上额外执行时间并不能被精度方面的小的增益所保证。这样,图像预处理算法在要求尽可能少时间的同时提供了良好的精度。上述的原则相对较抽象,不能容易地实现,这是由于最佳尺寸依赖于图像的特性。为了导出更数学上的准则,需要作出几方面的重要观察。要注意的第一件事情是对图像分辨率的任何修改都将对图像中的文本对象具有最大的影响,这是由于它们一般是图像中的最小对象。因此,应该更详细地考查分辨率变化对文本对象的影响。分辨率水平的降低对文本对象的影响用图4示例出来,图4示出从图的顶部到底部分辨率分别降低2倍、4倍和8倍的文字。如图所示,存在分辨率的任何进一步降低使得文本变得难以辨认的点。在量化这个点之前,需要定义如下术语。首先,将“基线(base line)”定义成通过一行文本中的大多数字符(除了下伸字母之外)的底端的水平线。其次,将“平均线(mean-line) ”定义成通过一行文本中的大多数字符(除了上行字母之外)的顶端的水平线。第三,将“X-高度”定义成基线与平均线之间的垂直距离,其对应于该行中的大多数小写字母(除了非下行字母和非上行字母之外)的高 度。返回到图4,可以将分辨率的任何进一步降低使得文本变得难以辨认的点定义成某个预定义的最小X-高度值。确定这个值的方式将在本文件的后面讨论。除了考查分辨率降低对各个文本对象(例如,单个字符)的影响之外,还应该考查它对一组文本对象的影响。图5示例了分辨率变化对相邻两行文本的影响,其示出从图的顶部到底部分辨率分别降低2倍和4倍。显然,对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:S加利奇
申请(专利权)人:微软公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1