文字图像分行方法和装置以及文字图像识别方法和装置制造方法及图纸

技术编号:2950393 阅读:336 留言:0更新日期:2012-04-11 18:40
一种文字图象分行方法,包括以下步骤:分段步骤,将文字图象按象素分成一定宽度的并排的多个文字图象段;象素分布统计步骤,获得各个图象段的象素分布,即图象段的每个象素行中的黑色象素的数目,并获得整个图象的象素分布,既整个图象的每个象素行中的黑色象素的数目;段块形成步骤,根据象素分布统计步骤中获得的图象段的象素分布统计和整个图象的象素分布统计,将图象段拆分为段块;行图象形成步骤,用于将拆分的段块整理成行图象。根据该方法,提高了文字图象的行切分的准确性,特别是有一定噪声的文字图象的行切分的准确性,从而相应提高了文字图象的识别的准确性。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种文字图象分行方法和装置,尤其涉及文字图象识别中的分行。
技术介绍
图1A表示现有的文字图象识别算法的流程。图1B是现有技术的文字图象识别装置的一个示例结构图。首先在s101文字图象行切分装置112将输入装置111输入(如通过扫描)的文字图象分行;在s102字符切分装置113将每一行中的字符切分;字符特征提取和识别装置114在s103提取切分的字符的特征,在s104进行字符匹配识别;在s105输出装置115输出识别结果。在文字图象识别的方法中,图象分行的准确程度直接影响着最终文字识别结果的准确度。现有的文字图象分行算法的过程如图2所示。首先在步骤s201将输入的文字图象沿水平方向按一定宽度(如400个象素宽)分成多个图象段;在步骤s202分别计算并记录每个图象段中的每条400象素宽的象素行中含有的黑色象素的个数;在步骤s203根据图象段中空白象素行(黑色象素的个数为0的象素行)的位置将图象段沿垂直方向拆分成多个段块,并且记录段块的信息,例如段块的宽度、高度、位置等;在步骤s204计算段块平均高度等信息,作为进一步拆分过大段块合并过小段块的标准;在步骤s205根据段块平均高度等信息将过大段块进一步拆分;在步骤s206检查段块,将过小段块并入邻近段块;在步骤s207根据段块的位置坐标,将段块整理成为行图象。以图3的文字图象为例。图3在宽度的方向上可以分割为两个图象段。对于第一个图象段,每行象素的黑象素统计图如图4所示,其中横坐标表示图象段中象素行,纵坐标表示相应象素行中黑象素的数目。对于第二个图象段,每行象素中的黑象素数统计如图5所示。当使用原算法(如图2所示)的流程对图3中的文字图象进行切分时,首先利用如图4和图5所示的每个象素行的象素分布统计,根据空象素行(黑象素数为0)分别将两个段切分成若干段块。然后根据这些段块的高度计算一次平均段块高度,并以此作为标准对切分后的各个段块进行再切分。对于每段中超过平均段块高度一定范围的过大段块,根据该段的黑象素统计图中的峰-谷关系,进一步拆分该过大段块。对于每段中低于平均段块高度一定范围的过小段块,将其并入邻近的段块。然而,由于原算法只计算了一次平均段块高度,而此后对高度在一定范围内超过这个平均段块高度的过大段块进行再切分之后,也不再重新计算新的平均段块高度,这显然是不合理的。结果是对于一些本来应当继续进行切分的段块高度进行检查时于其高度达不到需要切分的标准而被当成合理的段块送入下一流程(由行图象切分字符的流程),从而引起识别错误。使用图2所示的流程对图3进行行图象切分后,字符识别结果如下 可见,由于行切分的错误,造成原本的21行有效文本行只被切分出8条,并且,由于这些行图象的位置、尺寸都存在错误,使得识别结果非常差。
技术实现思路
因此,本专利技术所要决的问题是,提高文字图象的行切分的准确性,特别是有一定噪声的文字图象的行切分的准确性,从而相应提高文字图象的识别的准确性。为此,本专利技术提供了一种文字图象的分行方法,包括以下步骤分段步骤,将文字图象按象素分成一定宽度的并排的多个文字图象段;象素分布统计步骤,获得各个图象段的象素分布,即图象段的每个象素行中的黑色象素的数目,并获得整个图象的象素分布,既整个图象的每个象素行中的黑色象素的数目;段块形成步骤,根据象素分布统计步骤中获得的图象段的象素分布统计和整个图象的象素分布统计,将图象段拆分为段块;行图象形成步骤,用于将拆分的段块整理成行图象。本专利技术还提供了一种文字图象分行装置,其中包括分段装置,将文字图象按象素分成一定宽度的并排的多个文字图象段;象素分布统计装置,获得各个图象段的象素分布,即图象段的每个象素行中的黑色象素的数目,并获得整个图象的象素分布,既整个图象的每个象素行中的黑色象素的数目;段块形成装置,根据象素分布统计步骤中获得的图象段的象素分布统计和整个图象的象素分布统计,将图象段拆分为段块;行图象形成装置,用于将拆分的段块整理成行图象。本专利技术还提供了一种文字图象识别方法,其中包括以下步骤分行步骤,将输入的文字图象按照上述的文字图象分行方法分成行图象;字符切分和识别步骤,从分行步骤得到的行图象中提取字符并识别字符。本专利技术还提供了一种文字图象识别装置,其中包括上述文字图象分行装置,用于将输入的文字图象分成行图象;字符切分和识别装置,从图象分行装置得到的行图象中提取字符并识别字符。本专利技术还提供了一种计算机程序,由计算机执行以实现以下步骤分段步骤,将文字图象按象素分成一定宽度的并排的多个文字图象段;象素分布统计步骤,获得各个图象段的象素分布,即图象段的每个象素行中的黑色象素的数目,并获得整个图象的象素分布,既整个图象的每个象素行中的黑色象素的数目;段块形成步骤,根据象素分布统计步骤中获得的图象段的象素分布统计和整个图象的象素分布统计,将图象段拆分为段块;行图象形成步骤,用于将拆分的段块整理成行图象。本专利技术还提供了一种存储媒体,其上存储有一程序用于执行以下步骤分段步骤,将文字图象按象素分成一定宽度的并排的多个文字图象段;象素分布统计步骤,获得各个图象段的象素分布,即图象段的每个象素行中的黑色象素的数目,并获得整个图象的象素分布,既整个图象的每个象素行中的黑色象素的数目;段块形成步骤,根据象素分布统计步骤中获得的图象段的象素分布统计和整个图象的象素分布统计,将图象段拆分为段块;行图象形成步骤,用于将拆分的段块整理成行图象。附图说明图1A是现有技术的文字图象识别方法的流程图;图1B是现有技术的文字图象识别装置的一个示例结构图;图2是现有技术的文字图象分行算法的流程图;图3是作为文字图象识别对象的一个文字图象实例;图4是象素分布统计图,表示图3所示文字图象的第一段中每个象素行中黑象素分布统计结果;图5是象素分布统计图,表示图3所示文字图象的第二段中每个象素行中黑象素分布统计结果;图6A和6B是根据本专利技术的文字图象分行方法的流程图;图6C是根据本专利技术的文字图象识别装置的结构图;图6D是根据本专利技术的文字图象分行装置的结构图;图7是象素分布统计图,表示对图3所示整个文字图象的每个象素行进行黑象素分布统计的结果。具体实施例方式下面结合附图说明本专利技术的实施方式。通过对原算法的分析,可见当图象段中的噪音比较集中于某一区域时,会“遮盖”住该区域的空白象素行。如果噪音很多,还会进一步地缩小象素分布统计图中“波峰”和“波谷”之间的差距,使得对文本行位置的判断变得困难。为此,专利技术人提出了新的文字图象分行方法(图6A)。如图6C所示,由文字图象输入装置601(如扫描仪等)将文字图象输入文字图象分行装置602进行文字图象的分行。字符切分装置603对行图象进行字符切分。字符特征提取和识别装置604对切分出的字符进行特征提取和识别。识别结果由输出装置605输出,用于显示、存储或文档处理等进一步处理。文字图象分行装置602按照图6A所示的流程对文字图象进行分行。文字图象分行装置602的结构示例地表示在图6D中。通过步骤S301至S309将文字图象段拆分成段块。在步骤S301,分段装置611将输入的文字图象,如图3所示的文字图象,分成水平排列的多个图象段,每个段具有预定的宽度(如400个象素)。对于最后被划分的段,如果其宽度本文档来自技高网
...

【技术保护点】
一种文字图象分行方法,包括以下步骤:分段步骤,将文字图象按象素分成一定宽度的并排的多个文字图象段;象素分布统计步骤,获得各个图象段的象素分布,即图象段的每个象素行中的黑色象素的数目,并获得整个图象的象素分布,既整个图象的每个象素行中 的黑色象素的数目;段块形成步骤,根据象素分布统计步骤中获得的图象段的象素分布统计和整个图象的象素分布统计,将图象段拆分为段块;行图象形成步骤,用于将拆分的段块整理成行图象。

【技术特征摘要】

【专利技术属性】
技术研发人员:罗兆海李毅
申请(专利权)人:佳能株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利