二进制化文字图像的方法技术

技术编号:2949287 阅读:416 留言:0更新日期:2012-04-11 18:40
在光学字符识别(OCR)系统中,一种二进制化灰度文本图像的方法包括以下步骤:    在灰度图像上进行第一二进制化步骤,以生成第一二进制图像输出;    在所述第一二进制图像输出上进行布局分析步骤,以辨别所述第一二进制图像输出中框住个体文本字符的边界,来生成二进制字符区域;    在所述灰度图像的所述二进制字符区域上进行第二二进制化步骤,来生成第二二进制图像输出;    把所述第二二进制图像输出输入到OCR机器中。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及光学字符识别(OCR),即把图像数据中的文本字符图像转化成字符代码数据,更具体地说,涉及作为OCR过程的一部分,把图像数据中的灰度文本和背景像素二进制化。
技术介绍
OCR可以被定义成把文本图像数据转化为文字处理软件可读的字符代码形式(如ASCII码)的过程。在原始的文本图像数据中,文本字符与其它类型的图像数据(如图片或者线条)一样,是由各个象素组成的。在转化成为字符编码形式之后,不再有文本字符的原始图像。这样,为了把图像转化成为特定字符编码,OCR过程要求每个字符的图像质量都要相当高。很多OCR过程把字符定义成互相连接的点或者象素的独立的集合。如果文本图像质量较低,比如单个字符模糊,或者弄脏了相邻的字符,OCR过程可能无法把字符区分出来对应到它们各自的编码,文本将无法被文字处理软件辨识。多种原因都可能造成文字图像的质量比较低。例如,由复印机、传真机、打印机和数码相机生成的文本图像,经常由于高背景噪声、低空间分辨率、或者照明变化而导致质量低。这样的图像通常是单色的,或者是灰度图像,其中为每个个体像素分配一个灰度或者亮度等级,范围从全黑到全白。一种常见的灰度格式是八比特灰度图像。在这种格式中,赋值为0的像素是全黑的,赋值为255的像素是全白的。中等灰色的像素则被赋予0和255中间的某个值,比如110。OCR初步处理过程通常需要把灰度文本图像二进制化,这样,图像中的每个像素或者被当作文本字符的一部分,或者被当作页面背景的一部分。例如,如果一个特定的像素要形成文本字符的一部分,则给它赋低亮度值零(0)来代表黑色。不是个体文本字符的一部分,而是背景页面一部分的其他像素,则赋予高亮度值壹(1)。当二进制化一幅低质量灰度文本图像时,OCR的二进制化过程可能会产生错误像素。错误像素就是或者,比如作为文本符号前景的图像,应当取低亮度,如值零(0),但是却在图像中被当作背景的一部分而取了高亮度,如值壹(1);或者相反。OCR初步二进制化过程通常通过设定阈值值来决定什么灰度像素值应当被当作文本,以及什么应当被当作背景。例如,取值低于阈值的灰度像素都被赋予二进制值零(0),取值高于阈值的灰度像素都被赋予二进制值壹(1)。上述技术的一个问题在于,经常由于低信躁比(SNR)或者文本和背景像素之间的低对比度而导致低质量的灰度图像。因此,在应当被二进制化为背景的灰度像素值和应当被二进制化为文本前景的灰度像素值之间,可能只有一个非常小的差别。例如,一页文本的8比特灰度图像可能包括一些值为50的像素,它们很可能应当被二进制化为背景;以及值为45的相邻像素,它们应当被二进制化为文本前景。五个点的差别表示灰色的深浅仅仅发生了很小的改变。此外,当生成原始的灰度图像时,文本页面的照明不同,可能导致同一文本页面的另一个区域包括值为45而应当被二进制化为背景的像素,它的相邻像素值为40,应当被二进制化为文本前景。换言之,同样的灰度值可能在页面的一个区域代表背景,而在同样页面的另一个区域代表文本前景。因此,已经开发出这样的技术,它能适应性地计算设定的阈值,使其根据页面上被二进制化的区域而发生改变。可以任意规定这些区域,比如通过在页面上应用栅格图案;或者,也可以根据迭代二进制分析来求出页面上文本行或者文本块的位置,从而确定区域。在迭代二进制分析过程中,使用了采用改进阈值的第二二进制化过程,来清除实际文本字符边缘附近的错误像素。这样,在最终的OCR处理步骤中,二进制化的文本字符输出更有可能被准确地识别。通常,如果被分析的文本区域与页面上单个文本字符所在区域的范围很一致,迭代二进制化过程会产生更好的OCR结果。再次二进制化个体字符使得OCR机器更有可能正确地识别字符。现有的识别文本块或者任意确定栅格的技术框起字符组或者个体字符片断。因此,需要改进的迭代二进制化方法,更准确地框起可能包括被错误二进制化的像素的个体字符区域。
技术实现思路
在本专利技术的方法中,作为光学字符识别(OCR)系统的一部分,在灰度图像上进行第一二进制化步骤,来生成第一二进制图像输出。然后,在第一二进制图像输出上进行布局分析步骤,来识别第一二进制图像输出上框起个体文本字符的边界,以生成二进制字符区域。接下去,在灰度文本图像的二进制字符区域上进行第二二进制化步骤,来生成第二二进制图像输出。然后,第二二进制图像输出被输入到OCR机器中,来完成文字识别过程。附图说明通过下面对照附图的详细说明,本专利技术的其它方面会更加清晰。附图中,图1是一个一般化的流程图,说明本专利技术的一个实施例;图2示是根据本专利技术的一个实施例的布局分析步骤的结果,并示出了由框起个体文本字符的矩形框所确定的二进制化字符区域;图3A是可能出现在文本字符边缘的被错误二进制化的像素的例子,这种错误二进制化的像素可能是由于非理想条件而引起的,例如在生成灰度文本图像时原始文件不均匀的照明; 图3B示出了附图3A中被正确辨识的字符,包括根据本专利技术的一个实施例,由框住的体文本字符的矩形框所确定的二进制字符区域;图4是一个栅格,说明了根据本专利技术的一个实施例,待估计并二进制化的目标像素周围被编号的相邻像素。具体实施例方式参照附图,其中,相同参考字符表示相同或者相应的元素。图1是一个一般化的流程图,说明了本专利技术的一个实施例。灰度文本图像105在一第一二进制化步骤(S1)中被二进制化,以生成一第一二进制文本图像110。接着,在第一二进制文本图像110上进行布局分析步骤(S2)。在图2中,给出了布局分析步骤(S2)的结果的例子,它包括二进制字符区域205,该区域是由框起从第一二进制图像110中辨识出来的个体文本字符210的矩形框所确定的。再次参见图1,二进制字符区域205的坐标被提供给一第二二进制化步骤(S3),从而用来辨别原始灰度图像105的什么区域要被二进制化。第二二进制化步骤(S3)在原始灰度文本图像105上进行。然而,在第二二进制化步骤(S3)中,只有二进制字符区域205被二进制化。接着,第二二进制化步骤生成第二二进制文本图像115,输入到OCR机器120中,来完成文字识别过程。在本专利技术的一个实施例中,灰度文本图像105可能从各种类型的设备中获得,比如数字复印机、传真机、打印机,或者数码相机。如本领域的技术人员所知,第一二进制化步骤(S1)通常利用一个或多个标准阈值技术,来二进制化整个灰度文本图像105。第一二进制化步骤(S1)的输出是第一二进制图像110,它可能包括一些错误。如图3A所示,原始文件在生成灰度文本图像105时不均匀的照明等非理想化的条件,可能导致一些被错误二进制化的像素305出现在第一二进制图像110中。由于低信噪比(SNR),以及用来在灰度文本图像105中区分背景像素和文本像素的阈值技术,错误二进制化的像素305经常出现在个体文本字符210的边缘附近。不幸的是,正是在个体文本字符210的边缘附近,错误二进制化的像素305造成了OCR机器120在试图准确识别文本字符210过程中的绝大部分问题。例如,在图3A中,在字母“c”和“e”之间的错误二进制化的像素可能导致OCR机器120错误地把这两个字母当作一个字母“w”。类似地,图3A中字母“c”里面的两个错误二进制化的像素305可能导致OCR机器120错误地把本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:罗希平李俊镇立新
申请(专利权)人:摩托罗拉公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利