文本图像的校正方法技术

技术编号:3843402 阅读:177 留言:0更新日期:2012-04-11 18:40
本发明专利技术文本图像的校正方法,属于光学字符识别领域,包括以下步骤:定位文本图像中的字符区域并提取疑似字符;对疑似字符进行识别,若识别可信度大于单个字符可信度参考值,则字符有效方向为正向,否则将疑似字符分别逆时针旋转来判断有效方向;提取具有有效方向的字符至有效字符集,直到某方向识别可信度累加值高于既定的识别可信度,则提取对应的文本方向;校正图像的方向,进行文本图像的识别并输出。本方法有效滤除了不可靠的字符的影响,避免文字区域中的不可靠的区域对文字方向判断的影响。对于复杂文本图像、含有噪声的文本图像、质量较差的文本图像具有较好的自适应,能较快、正确的判断出文本图像方向,进而有效地进行文本图像的识别。

【技术实现步骤摘要】

本专利技术属于光学字符识别(OCR)领域,涉及一种。
技术介绍
当待识别的文档通过图像录入装置(如扫描仪、照相机等)转换成文本图像时,其文字方向不一定是正向的,可能旋转了 90°、180°、270°。若是直接将非正向的文本图像 送入识别弓I擎进行识别,无法得到正确的识别结果。为保证文本图像中的信息能够正确被识别、并保存成电子文档,目前通常采取两 种方案。方案一手工校正图像方向。该方法耗时耗力,尤其对大量图像进行操作时,效率 及其低下。方案二 利用指定区域内的识别信息,对文本图像方向进行校正。方案二实现了文本图像识别的自动化,大大提高了效率。申请号为98105597. 4的专利提出了一种文本图像方向判断校正的方法,该方法 检测文本图像内部一个字符区域的预定部分,并识别该区域,最后根据该区域中的字符平 均识别可信度,判断文本图像方向。该方法对于包含纯文字的文本图像具有良好效果。但 是,由于没有对待识别区域内的字符进行有效性的筛选,若是选取的区域中包含本身包含 非文字区域(例如图标、噪声等)或是识别可靠度低的区域(例如成像质量差的字符), 则可能造成该区域平均识别可靠性低于参考值。此时可能对四个方向均进行识别,大大增 加了判断时间和系统资源。此外,区域中包含的字符数过少,判断准确度比较低,而区域中 包含的字符数过多,速度会比较慢。因此,需要提供一种对图像适应性更强的方法,不受区域选择限制及区域中的不 良因素的干扰,有效判断各类复杂的文本图像。
技术实现思路
本专利技术目的在于提供一种,适用于各类复杂的文本图像。在 定位文本图像中的字符区域后,根据若干字符方向性判断文本的方向,在此基础上校正图 像的方向,进行文本图像的识别。本方法不受区域选择限制及区域中的不良因素的干扰,有 效判断各类复杂的文本图像。,该方法包括以下步骤步骤1 定位文本图像中的字符区域;步骤2 对字符区域中的字符块进行基于结构特征的分类,并从中提取疑似字符;步骤3 用字符识别引擎对提取的疑似字符进行识别;若得到的识别可信度大于 单个字符可信度参考值,则字符有效方向为正向,转到步骤4;否则将疑似字符分别逆时针 旋转90°、180°、270°进行识别,若各方向的识别可信度仅有一个大于单个字符可信度参 考值,则对应的方向为该字符的有效方向,转到步骤4 ;否则转到步骤2 ;步骤4 逐个提取具有有效方向的字符至有效字符集,计算其中各字符的四个方 向上的识别可信度累加值,直到某方向识别可信度累加值高于既定的识别可信度;将该累 加值对应的方向作为文本方向;步骤5 根据文本方向判断结果,校正图像的方向,进行文本图像的识别并输出。所述步骤2中,对字符块进行基于结构特征的分类包括选取字符块结构特征;计 算字符块结构特征值;根据字符块结构特征值提取疑似字符。所述步骤2中,疑似字符为与待识别语言的字符结构特征相似的字符块。所述步骤2中字符块结构特征包括字符的宽度、高度、宽高比、上下穿 刺特征、笔 画特征、连通域特征。提取疑似字符块采用的字符结构特征包括宽度W、高度H、宽高比W/ H。若字符块相应结构特征同时满足0. 5彡W/H彡2、W彡Hl/4和H彡Hl/4,就认为该字符 为疑似字符,否则,为无效块。其中,若文本行为水平方向,则凡为字符所在的文本行的行 高;若文本行为竖直方向,则凡为字符所在的文本行的行宽。所述步骤3中,若正向识别得到的识别可信度大于单个字符可信度参考值,不再 对该字符进行其他方向上的识别,直接确定字符有效方向为正向,将该字符加入有效字符 集中,转到步骤4 ;若已知输入文本图像多数为其他方向,也可以优先识别该方向。所述步骤4中,有效字符集为存储字符的内存空间,用来存储具有有效方向的字 符。所述步骤4中,既定的识别可信度为一可信度的设定值,用来与各方向的识别可 信度累加值进行比较。本专利技术,与现有技术相比,其优点在于1.通过有效字符集的提取与该集合中四个方向的识别可信度的累加,判断文本方 向,有效滤除了不可靠的字符的影响,避免文字区域中的不可靠的区域对文字方向判断的影响。2.本专利技术通过有限个字符进行文本图像的校正,对于复杂文本图像、含有噪声的 文本图像、质量较差的文本图像,本方法都具有较好的自适应,能较快、正确的判断出文本 图像方向,进而有效地进行文本图像的识别。附图说明图1为本专利技术的方法流程图;图2为本专利技术的实施过程示意图,其中图2 (a)是拍摄得到的一个二值文本图像;图2(b)是文本图像字符区域标记图;图2(c)是字符有效方向判断图示例说明;图2(d)是文本方向的判断图示说明图;图2(e)是采用本方法校正得到的正向图像后与相应的文本识别结果的比对图。 具体实施例方式本专利技术在于提供一种适用于各类包含文字内容的自动文本图像方向判断方法,为 文本图像识别全自动化提供保障。以下结合附图并以文字方向为90°的中文拍摄文本二值图像为例,对本专利技术的文 本图像方向判断方法进行详细说明。如图1所示,同时参考图2,本专利技术的文本图像方向判 断方法的一个具体实施例,包括以下步骤步骤一图像中的字符区域定位。输入识别系统的文本图像,经过文本结构分析 后,得到文本区域中的字符块区域。本实施例中,对文本结构分析定位字符块区域步骤包 括文本行切分,得到若干行单行文本;行内字符块切分,得到若干单个字符块。字符区域 的定位结果见图2(b)所示,方框为字符块边界。在本实施例中,为避免左右分离结果的字符被切分,还可以对字符块进一步进行 合并处理根据文本区域统计的字符宽高信息,对一些距离比较近的字符块进行合并,完成 字符区域定位。文本行切分文本行方向判断,通过水平方向投影和竖直方向投影直方图的效果, 判断文本行的方向,在正确的方向进行投影,得到的直方图上存在明显的落差较大波峰和 波谷。在本实施例中,文本行被判定为竖直方向,因此利用竖直方向投影直方图切分文本 行逐列计算图像中的每一像素列中前景像素的个数,得到图像竖直投影直方图;选取合 适的阈值,在竖直投影直方图上确定文本行的边界,在本实施例中选取0为文本行切分阈 值若第i列投影值为0,第i+Ι列投影值> 0,则第i+Ι列作为一行的起始边界;若第i列 投影值为0,第i-Ι列投影值> 0,则第i-1列作为一行的结束边界。当然,在其他实施例中 也可采取其他数值为行切分阈值对文本进行切分。若文本方向为水平,则利用水平方向投 影图切分文本行,方法与竖直方向投影直方图切分文本行方法类似。行内字符块切分在本实施例中,对于竖直文本行利用水平方向投影直方图切分 字符块逐列计算单个竖直文本行图像中的每一像素行中前景像素的个数,得到水平投影 直方图;选取合适的阈值,在水平投影直方图上确定字符块区域的上下边界,在本实施例中 选取0为切分阈值若第i行投影值为0,第i+Ι行投影值> 0,则第i+Ι行作为字符块的上 边界;若第i行投影值为0,第i-Ι行投影值> 0,则第i-Ι行作为字符块的下边界;当然,在 其他实施例中也可采取其他数值为字符块切分阈值。当字符上下边界确定后,字符左右边 界为该上下区域内左右第一个像素投影值非0的列。若文本方向为水平,则利用文本行的 竖直方向投影直方图切分字符块,方法与水平方向投影直方图切分字符块方法类似。本实施例本文档来自技高网...

【技术保护点】
一种文本图像的校正方法,其特征在于,包括以下步骤:步骤一:定位文本图像中的字符区域;步骤二:对字符区域中的字符块进行基于结构特征的分类,并从中提取疑似字符;步骤三:用字符识别引擎对提取的疑似字符进行识别;若得到的识别可信度大于单个字符可信度参考值,则字符有效方向为正向,转到步骤四;否则将疑似字符分别逆时针旋转90°、180°、270°进行识别,若各方向的识别可信度仅有一个大于单个字符可信度参考值,则对应的方向为该字符的有效方向,转到步骤四;否则转到步骤二;步骤四:逐个提取具有有效方向的字符至有效字符集,计算其中各字符的四个方向上的识别可信度累加值,直到某方向识别可信度累加值高于既定的识别可信度;将该累加值对应的方向作为文本方向;步骤五:根据文本方向判断结果,校正图像的方向,进行文本图像的识别并输出。

【技术特征摘要】

【专利技术属性】
技术研发人员:万鑫刘正珍
申请(专利权)人:汉王科技股份有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1