反白字符识别的块分类方法和文本行生成方法技术

技术编号:2930334 阅读:394 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了识别文本块,从而判断文本编辑方向,并辨别反白字符的方法和设备。因为利用图像块边缘附近的黑色和白色象素的直方图,计算图像块边界上的黑色象素的阈值或阈值范围,所以可以计算所述图像块边界上的黑色象素密度,且可以根据黑色象素密度有效地判断图像块的类型。而且,根据本发明专利技术,因为从图像块精确地识别反白字符的方法利用图像块边界上的平均灰度来表示图像块背景的灰度,如果确定背景的灰度小,而前景的灰度大,那么字符判断为反白字符,反之亦然。

【技术实现步骤摘要】

本专利技术涉及一种字符识别的方法和设备,尤其涉及一种从图像中识别文本块和反白字符,并进而判断文本编辑方向的方法和设备。
技术介绍
在现有技术中,图像二值化(或寻找阈值)通常是光学字符识别(OCR)系统的第一步。它将灰度图像转换成分别表示文本和背景的二元型式。OCR的识别率主要基于二值图像的质量。然而,对于对比度差或复杂背景的文本图像来说,很难找到适当的阈值将文本与背景分开。虽然在过去的多年来已经提出了多种阈值选择方法,包括全局和局部阈值方法,但当前二值化方法的质量仍然限制了OCR的性能。在一些情况下,由于字符本身的极大变化,特别是由字符前景和背景表示的主要信息的差别,会出现反白字符,即,表示字符背景的灰度小于字符前景的灰度。因为分别由字符前景表示的信息和字符背景表示的信息改变,如果不能从字符中区别出反白字符,则许多操作的结果将很可能变差。所以,反白字符的出现增加了文献图像加工领域中精确识别图块的难度。在现有技术中,有两种辨别二值图像中的反白字符的算法扫描宽度算法和统计算法。扫描宽度算法,例如US5594815,根据文本块中黑点和白点的扫描宽度,以及扫描宽度的位置判断文本块是否是反白字符。但是,它难以计算出用于正确地区别文本区域背景和前景的阈值,该阈值受噪声的影响很大。所以,使用扫描宽度算法辨别反白字符的结果不太好。统计算法,例如参见JP No.3367982,根据不同的数学方法对分别属于前景和背景的象素的统计结果辨别反白字符。但它难以分开前景和背景,尤其是当前景和背景之间的对比度非常小时,或背景非常复杂时。所以,利用统计算法辨别反白字符的结果不太好。而且,对于具有各种背景和噪声的、不同大小和不同种类的字符来说,统计公式通常很不稳定。在文献图像二值化中,需要在图块分类之后合并文本块。文本块可以分成长文本块和短文本块,且长文本块仅通过自身就可以指示文本编辑方向,而短文本块必须结合相邻的文本块来判断文本编辑方向。一些现有技术的方法仅根据整个文献图像,即,通过首先使整个文献图像二值化,来判断文本编辑方向,但不能动态地、局部地判断文本编辑方向,并产生非常规则的正文行。
技术实现思路
本专利技术是在考虑了上述现有技术的问题而作出的。本专利技术的目的是提供一种新颖、简单的将图像块分成文本、反白文本和非文本,即识别文本块的方法和设备。本专利技术的另一目的是提供一种从图像块精确地辨别反白字符的简单方法和设备。本专利技术的另一目的是提供一种动态地、局部地判断文本编辑方向的新颖方法和设备。根据本专利技术的第一方面,从输入的图像块识别文本块的方法包含下述步骤计算图像块边缘附近的黑色象素的直方图和图像块边缘附近的白色象素的直方图的直方图计算步骤;根据黑色和白色象素的所述直方图,计算图像块边界上的黑色象素阈值的二值化阈值计算步骤;使用所述阈值对所述输入图像块二值化的二值化步骤;根据所述二值化步骤获得的结果,判断二值化图像边界上的象素是否几乎是白色或黑色或其他,从而判断图像块的类型是文本、反白文本或非文本的判断步骤。可取的是,所述二值化阈值计算步骤包含计算图像块中黑色象素的阈值范围,所述二值化步骤还包含分别使用所述阈值范围内的最小阈值(nMinThr)和最大阈值(nMaxThr)使所述输入图像块二值化。可取的是,所述判断步骤包含根据所述最小阈值(nMinThr)和最大阈值(nMaxThr),计算边界上的黑色象素的最小黑色象素密度(MinBlackDensity)和最大黑色象素密度(MaxBlackDensity)的计算步骤,根据黑色象素密度判断图像块类型。可取的是,所述二值化阈值计算步骤还包含将黑色象素和白色象素的直方图组合成组合的直方图,其中如果黑色象素的直方图和白色象素的直方图不交叉,则黑色象素的直方图的最大灰度选择为最小阈值(nMinThr),白色象素的直方图的最小灰度选择为最大阈值(nMaxThr),如果黑色象素的直方图和白色象素的直方图交叉,则A至C的比值落入内的任何一种灰度选择为最小阈值(nMinThr),B至C的比值落入内的任何一种灰度选择为最大阈值(nMaxThr),其中C是图像块边缘附近的黑色象素总数,A是图像块边缘附近的其灰度小于最小阈值(nMinThr)的黑色象素数目,B是图像块边缘附近的其灰度小于最大阈值(nMaxThr)的黑色象素数目。在内的所述比值优选为0.6,在内的所述比值优选为0.85。根据本专利技术的第二方面,从输入的图像块识别反白字符的方法,包含使用图像块边界上的平均灰度来表示图像块背景灰度的灰度平均步骤;计算图像块的直方图的直方图计算步骤;从直方图计算两个灰度值来表示图像块背景和前景的灰度计算步骤;将在灰度计算步骤中计算出的这两个值的距离和灰度平均步骤中计算出的平均灰度进行比较,从而辨别反白字符的比较步骤。这种辨别反白字符的方法基于字符本身的基本特征,且最初辨别的结果通过图像块的边界进一步检查。通常,字符具有其自身固有的特征在前景和背景之间的对比度必须大到某一程度,以便识别。背景的灰度可以由图像块边界上的这些象素的灰度来表示。如果图像块边界上的这些象素的灰度小,那么背景的灰度小,前景的灰度大,字符为反白字符;反之,字符不是反白字符。判断图像块边界上这些象素的灰度是大还是小基于直方图中的两个峰值或Otsu阈值。这可以保证根据不同的字符适配阈值,增加辨别反白字符的精度。可取的是,所述灰度平均步骤包含平均图像块中的象素和从图像块的边界扩展至少一个象素的所有象素的总灰度。这种辨别反白字符的方法的优点如下适应性阈值计算适于不同种类和尺寸的字符,各种背景复杂性以及背景和前景之间的对比度,所以这种方法的输出对于所有种类的字符都稳定。背景无关字符背景的复杂性对这种方法有非常小的影响;即使字符的背景非常复杂,比如包括图片背景,这种方法也可以精确地辨别反白字符。亮度无关字符背景和前景之间的对比度对这种方法有非常小的影响;即使对比度非常小,大于10个象素,这种方法也可以精确地辨别反白字符。尺寸无关这种方法可以处理大于10×10象素的字符。高反白字符辨别率低误差辨别率根据本专利技术的第三方面,本专利技术还提供了一种判断文本编辑方向的方法,本专利技术的该第三实施例可以与识别文本块的现有技术方法结合使用,或可在完成如本专利技术的第一或第二实施例所述的方法之后,用作合并文本块的步骤。判断文本编辑方向的所述方法包含为文本块定义第一组限制条件的步骤,所述限制条件包括表示文本块之间的间距的第一nSpaceLimit;寻找文本块的步骤;对于在寻找文本块的所述步骤中找到的短块,计算包括所述短块所在的那一行的至少两个连续文本行的每两个相邻文本行之间的行间距的至少一个值,和在所述短文本块所在的同一文本行内,在至少三个连续文本块的每两个相邻文本块之间间距的至少两个值的步骤;将行间距的所述值和间距的所述值与所述第一nSpaceLimit进行比较的步骤;根据所述比较步骤的结果,判断局部文本编辑方向的步骤,其中如果行间距的所述值和间距的所述值都大于所述第一nSpaceLimit,那么所述文本块不能用于判断局部文本编辑方向,返回寻找另一文本块的步骤,如果行间距的所述至少一个值的最小值小于间距的所述至少两个值的最小值,那么局部文本编辑方向判断为水平的,如果行间距的所述至少一个本文档来自技高网
...

【技术保护点】
一种从输入的图像块识别文本块的方法,包含:计算图像块边缘附近的黑色象素的直方图和同一图像块边缘附近的白色象素的直方图的直方图计算步骤;根据黑色和白色象素的所述直方图计算图像块边界上的黑色象素阈值的二值化阈值计算步骤;使用所述阈值使所述输入图像二值化的二值化步骤;根据所述二值化步骤获得的结果,判断二值化图像的边界上的象素是否几乎是白色或黑色或其他,从而判断图像块的类型是文本,反白 文本或非文本的判断步骤。

【技术特征摘要】

【专利技术属性】
技术研发人员:马小勇胥立丰赵洪生金田北洋
申请(专利权)人:佳能株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1