用于识别文本行的方法技术

技术编号:2932553 阅读:226 留言:0更新日期:2012-04-11 18:40
作为一种光学字符识别方法一部分的识别二进制图像中文本行的方法,包括以下步骤:    通过将一二进制图像分成多个纵列并估计上述纵列中每一个的文本行总数来分析所述二进制图像;    将包括在一给定数的上述纵列中的上述文本行总数或具有一给定的上述文本行数的上述纵列总数与至少一个阈值进行比较,以便确定具有带上边界和下边界的文本行的种子纵列;    使所述种子纵列中文本行的上述上边界和下边界水平延伸跨过所有上述纵列以便形成若干观察区;及    分析上述图像以便确定相邻观察区之间水平分隔线的位置。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及把图像中的文本字符图像转变成字符代码数据的光学字符识别(OCR),而更具体地说,涉及图像数据中特定的文本行的识别。
技术介绍
OCR可定义为把文本图像数据转变成一种可通过字处理应用程序读出的字符代码格式(如ASC II码)的方法。在原始的文本图像数据中,文本字符由单独的像素以与其它类型图像数据,如图片或线条相同的方式组成。在转变成字符代码格式后,原始的文本字符图像就不再可用。因此,OCR处理要术质量很高的单个字符的图像,以便将图像转变成特定的字符代码。许多OCR处理将一个字符定义为若干连接的点或像素的一个独立的集合。如果文本图像质量低,以致单个的字符变模糊或沾污到相邻的字符中,则OCR处理不能将字符分开成它们单独的代码,并且文本将不能用字处理应用程序进行解释。文本图像可能由于各种原因而质量低。由复印机、传真机、打印机、和数字照相机所产生的文本图像常常包括由错误像素构成的字符。错误的像素是这样一些像素,即它们应当或是形成一个字符前景的一部分,并因此,例如应被赋予一种低明暗度如黑色,而不是在图像中作为背景的一部分并被赋予一种高明暗度(intensity)如白色,或者反之亦然。这些错误可能是,例如由高背景噪声,低空间分辨率,或变化的照明所引起。如果多个错误的像素聚集在一起,则图像可能具的污点或模糊不清,这些污点或模糊不清可能延伸跨过若干字符或甚至若干行。因此,专利技术了OCR技术以便改善从含有错误像素的低质量图像中辨别字符和字的能力。将各单个字符与它们紧邻的垂直和水平的邻居分开是这类技术的主要目的。将字符与它们垂直的邻居分开识别文本行的垂直位置(也通称为文本寄存),常常是通过分析图像的水平突出部分并识别在文本各行之间存在的空格水平行的垂直位置来完成。这经常通过各个像素行的直方图分析来进行。在直方图分析中,将每个像素行中前景像素的总数与相邻行的类似总数进行比较。然后把各文本行之间的线定义为由低直方图计数所代表的低谷进行识别。低谷夹在代表相邻文本行的上边缘和下边缘的峰什直方图计数之间。上述水平剖面(profile)技术除了文本行之间的背景行像素被前景像素中断之外都能很好地工作。当文本严重扭斜时或是当文本图像被沾污或模糊不清进入文本行之间的背景行时,发生这一问题。在扭斜错误的情况下,文本行在页面上或是向上或是向下倾斜。有严重正扭斜角的文本的水平突出部分可以分析一个文本行的下边缘以及紧邻其下的文本行的上边缘。因而,最终的直方图一般对识别文本行没有用。现有技术中与上述严重扭斜问题有关的解决方案包括将文本行分或若干纵列,然后分析每个纵列的水平剖面。如图1所示,各纵列的各文本行被重新组合成它们原始的完整文本行。重新组合过程通过确定哪些行水平重叠,将来自第一纵列的字符行与来自其相邻纵列的字符行区别开。通过连需地从,例如页面左侧上的第一纵列前进至页面右侧上的最后纵列,将原始的各字符行重新组合。如图1所示,在识别字符行的位置之后,文本的线可以接合到矩形情况下所有四个边上。然后使用应用到每个矩形内部各像素上的现有技术分段技术,其中包括垂直概貌技术,来识别单个文本字符并完成OCR处理。尽管上述将多个纵列中识别的文本行重新结合的过程很适合于在具有严重扭斜的文件上进行OCR工作,但在各文本线之间严重沾或模糊不清的文件上不能很好地工作。这种沾或模糊不清常常造成一个页面局部区域具有连续的前景像素从文本的一条线跑到另一条线。那样可以阻止识别一特定纵列中的文本行。同样,现有技术的OCR技术可以造成识别比实际字行高或矮的幻象文本行。这些幻象文本行可能使OCR处理的最终文本输出不清晰。局部沾污或模糊不清在用数码相机所拍的文本图像中特别普遍。为了最大程度地最低成本,数码相机常常被制成具有低分辨率,并且用这种相机所形成的图像也容易受到变化的照明和高背景噪声的影响。然而,这类相机经常被用来拍摄文件,如名片中的文图象。然后可以用有效的OCR技术将文件中信息录入个人数字助理(PDA)或便携式计算机中。因此,需要有一种改进的OCR技术,以便可用来识别数字图像中的文本行,所述文本行在严重的局部模糊不清区域的情况下失真。专利技术概要在本专利技术的方法中,二进制图像通过将二进制图像分成多个纵列并估计每个纵列中文本行的总数对二进制图像进行分析。接着,根据特定系统的需要,将一给定数纵列中所包括的文本行数,或具有一给定数文本行的纵列数,或是二者,与至少一个阈值进行比较,经便确定带上边界和下边界的文本行的种子纵列。水平延伸种子纵列中文本行的上边界和下边界跨过所有纵列,以便形成若干观察区。然后,分析图像以便确定各相邻观察区之间水平分隔线的位置。附图说明下面参照附图所作的详细说明将使本专利技术的其它方面变得明显,其中图1示出了现有技术识别二进制图像中文本行垂直位置的方法;图2是本专利技术第一实施例的概括流程图;图3A示出了一种类型的二进制图像变模糊不清的示意图,上述二进制图像变模糊不清可能造成原始文件中的二个文本行被识别成文件二进制图像中的一个文本行;图3B示出了一种类型的二进制图像变模糊不清的示意图,上述二进制图像变模糊不清可能造成在文本的二进制图像中识别出一个附加的幻象文本行;图4是根据本专利技术一个实施例所述的线数的直方图;图5A是根据本专利技术的一个实施例的进一步的二进制图像文本行和纵列分析的示意图;图5B是根据本专利技术的一个实施例包括观察区定义的二进制图像文本行和纵列分析的示意图;图5C和5D示出了根据本专利技术一个实施例的单个文本像素行水平概貌分析的示意图;图5E示出了根据本专利技术一个实施例的文本行边界最终定位的示意图。使用本专利技术的方法,可以把一些文件205如报告,信件和名片有效转变成一种数字式字符代码格式,如ASCII码。文件205的二进制或位图像可以用各种类型的图像获取装置205获得。这些装置可以包括例如平板式扫描仪和手持式数码相机。如上所述,与分辨率、照明或背景噪声有关的问题可能使获得的二进制图像具有局部的模糊不清部分300,如图3A和3B中所示。模糊不清部分300不能准确地表示原始文件205的文本。如图3A所示,有时模糊不清部分300可能如此严重,以至于一行中形成文本/字符的低明暗度像素在各文本行之间延伸并伸入相邻行中形成文本字符的低明暗度像素。在这种情况下,现有技术方法识别二进制图像中文本行的位置和大小,如上述的水平剖面法,可能造成把两行310和315识别成具有比实际文本行高得多的单一行。在其它情况下,如图3B所示,局部模糊不清部分300可以在两行之间产生而不触及任何文本字符。这可以造成现有技术的水平剖面法识别一条“文本”320的幻行,而所述“文本”320处在原始文件205中并不存在。如图2所示,本专利技术通过首先把一二进制图像分成多个纵列215克服了与局部模糊不清有关的问题。各纵列可以具有固定宽度或可变宽度,这取决于特定的应用要求。例如,设计成读出产品标牌的相机或扫描仪可以安装在装配线上的固定位置中。局部照明或其它环境条件可能造成局部模糊不清,这种局部变模糊不清一般只是在产品标牌的二进制图像一侧上。然后,可以将应用本专利技术方法的OCR处理进行校准,以便将二进制标牌图像在包括模糊不清部分300的图像侧上分成较窄间距的纵列和在另一图像侧上分成较宽间距的纵列。正如下面本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:李俊罗希平镇立新
申请(专利权)人:摩托罗拉公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1