基于OCR识别反馈的文档图像倾斜校正方法技术

技术编号:6603105 阅读:764 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了图像识别技术领域中的一种基于OCR识别反馈的文档图像倾斜校正方法。包括:输入文档图像;选择文档图像中的一个矩形区域;分别利用文本线跟踪算法和非边界行的文本线跟踪算法对文档图像的选定区域进行OCR识别,并分别得到文档图像的倾斜角度ka和kb以及识别效果参数Ia和Ib;判断Ia和Ib的大小,当Ia≥Ib时,则使用倾斜角度ka对整个文档图像进行校正处理;当Ia<Ib时,则使用倾斜角度kb对整个文档图像进行校正处理。本发明专利技术使得校正结果更加准确有效,解决了现有图像处理方法的倾斜校正算法不具有良好通用性的问题。

【技术实现步骤摘要】

本专利技术属于图像识别
,尤其涉及一种基于OCR识别反馈的文档图像倾斜校正方法
技术介绍
目前,大多数图像识别技术中使用的倾斜校正算法的计算精度在很大程度上受图像纹理(如文本的字体、字型、脚本以及是否含有图片)的影响,不具有良好的通用性,有些算法只对某种或某几种语言的处理取得较好的结果,有些算法对文本中的大幅图片敏感。 另外,目前还没有一种算法能够在处理多语言文本时,产生有效的结果。针对上述图像识别技术中使用的倾斜校正算法存在的缺陷,本专利技术提供了一种基于OCR识别反馈的文档图像倾斜校正方法,利用既有的图像识别技术,具体是利用文本线跟踪算法和非边界行的文本线跟踪算法,对文档的一个小矩形区域进行倾角检测并校正得到结果,再利用OCR识别技术,根据该小矩形区域识别后得到的参数确定对该文档识别效果最好的算法,最后用这种反馈得到算法对整个文档进行校正。
技术实现思路
本专利技术的目的在于,提供一种基于OCR识别反馈的文档图像倾斜校正方法,用于解决现有图像处理方法的倾斜校正算法不具有良好通用性的问题。技术方案是,一种基于OCR识别反馈的文档图像倾斜校正方法,其特征是所述方法包括步骤1:输入文档图像;步骤2 选择文档图像中的一个矩形区域;步骤3 分别利用文本线跟踪算法和非边界行的文本线跟踪算法对文档图像的选定区域进行OCR识别,并分别得到文档图像的倾斜角度ka和kb以及识别效果参数Ia和Ib ;步骤4 判断Ia和Ib的大小,当Ia彡Ib时,则使用倾斜角度ka对整个文档图像进行校正处理;当Ia < Ib时,则使用倾斜角度kb对整个文档图像进行校正处理。所述利用文本线跟踪算法对文档图像的选定区域进行OCR识别具体包括步骤101 利用文本线跟踪算法对文档图像的选定区域进行处理,得到文档图像的倾斜角度ka ;步骤102 利用倾斜角度ka对文档图像的选定区域进行校正处理;步骤103 对步骤102的校正处理结果进行OCR识别;步骤104 得到文档图像的选定区域的识别结果,该识别结果包括可疑字符数和识别字符数;步骤105 利用公式识别效果参数=可疑字符数/识别字符数,计算识别效果参数 所述利用非边界行的文本线跟踪算法对文档图像的选定区域进行OCR识别具体包括步骤 步骤201 利用非边界行的文本线跟踪算法对文档图像的选定区域进行处理,得到文档图像的倾斜角度kb;步骤202 利用倾斜角度kb对文档图像的选定区域进行校正处理;步骤203 对步骤202的校正处理结果进行OCR识别;步骤204 得到文档图像的选定区域的识别结果,该识别结果包括可疑字符数和识别字符数;步骤205 利用公式识别效果参数=可疑字符数/识别字符数,计算识别效果参数Ib0本专利技术对文本图像中的一个小矩形区域分别利用文本线跟踪算法和非边界行的文本线跟踪算法进行OCR,使用识别效率高的算法计算出的倾斜角度对整个文档图像进行校正处理,使得校正结果更加准确有效,解决了现有图像处理方法的倾斜校正算法不具有良好通用性的问题。附图说明图1是基于OCR识别反馈的文档图像倾斜校正方法流程图;图2是利用文本线跟踪算法对文档图像的选定区域进行OCR识别流程图;图3是文本线跟踪算法示意图;图4是利用非边界行的文本线跟踪算法对文档图像的选定区域进行OCR识别流程图。具体实施例方式下面结合附图,对优选实施例作详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本专利技术的范围及其应用。图1是基于OCR识别反馈的文档图像倾斜校正方法流程图。图1中,基于OCR识别反馈的文档图像倾斜校正方法包括步骤1:输入文档图像。步骤2 选择文档图像中的一个矩形区域。步骤3 分别利用文本线跟踪算法和非边界行的文本线跟踪算法对文档图像的选定区域进行OCR识别,并分别得到文档图像的倾斜角度ka和kb以及识别效果参数Ia和Ib。图2是利用文本线跟踪算法对文档图像的选定区域进行OCR识别流程图。图2中, 利用文本线跟踪算法对文档图像的选定区域进行OCR识别具体包括步骤101 利用文本线跟踪算法对文档图像的选定区域进行处理,得到文档图像的倾斜角度ka。图3是文本线跟踪算法示意图。图3中,利用文本线跟踪算法得到文档图像的倾斜角度的过程是,在对图像进行二值化、膨胀、提取中心线之后,首先定义三个点变量,即起始点、当前测试点和结束点。从最后一行文本线的1/2处开始找到第一个黑点,记录下其坐标,将当前测试点设置为起始点相邻的右上方的点,然后测试当前点相邻的右上方、右侧、 右下方三个点是否为黑像素点,如果其中一个点为黑色点,就将该点设置为当前测试点,继续进行测试,直到当前点的右侧三个点(右上方、右侧、右下方)均不是黑点,就将这点设置为结束点。这样,由起始点和结束点这两点就可以确定一条直线,而这条直线的斜率就是倾斜角度ka。步骤102 利用倾斜角度ka对文档图像的选定区域进行校正处理。步骤103 对步骤102的校正处理结果进行OCR识别。步骤104 得到文档图像的选定区域的识别结果,该识别结果包括可疑字符数和识别字符数。步骤105 利用公式识别效果参数=可疑字符数/识别字符数,计算识别效果参数Ia。图4是利用非边界行的文本线跟踪算法对文档图像的选定区域进行OCR识别流程图。图4中,利用非边界行的文本线跟踪算法对文档图像的选定区域进行OCR识别具体包括步骤步骤201 利用非边界行的文本线跟踪算法对文档图像的选定区域进行处理,得到文档图像的倾斜角度kb。利用非边界行的文本线跟踪算法对文档图像的选定区域进行处理,得到倾斜角度的过程与步骤101利用文本线跟踪算法得到倾斜角度大致相同,唯一不同之处在于,不选择最下边一条文本线(即边界线)作为起始点,而是选择一条非边界的行,比如我们可以选择倒数第三行,如果更精确可以选择倒数三,五,七,九等行,求出多个倾斜角度后做平均, 用这个平均值来作为最终的倾斜角度kb。步骤202 利用倾斜角度kb对文档图像的选定区域进行校正处理。步骤203 对步骤202的校正处理结果进行OCR识别。步骤204 得到文档图像的选定区域的识别结果,该识别结果包括可疑字符数和识别字符数。步骤205 利用公式识别效果参数=可疑字符数/识别字符数,计算识别效果参数Ib0步骤4 判断Ia和Ib的大小,当Ia彡Ib时,则使用倾斜角度ka对整个文档图像进行校正处理;当Ia < Ib时,则使用倾斜角度kb对整个文档图像进行校正处理。最后,使用选定的倾斜角度对整个文档图像进行校正处理,然后对校正后的结果进行OCR识别,从而得到整个文档图像的识别结果。以上所述,仅为本专利技术较佳的具体实施方式,但本专利技术的保护范围并不局限于此, 任何熟悉本
的技术人员在本专利技术揭露的技术范围内,可轻易想到的变化或替换, 都应涵盖在本专利技术的保护范围之内。因此,本专利技术的保护范围应该以权利要求的保护范围为准。本文档来自技高网
...

【技术保护点】
1.一种基于OCR识别反馈的文档图像倾斜校正方法,其特征是所述方法包括:步骤1:输入文档图像;步骤2:选择文档图像中的一个矩形区域;步骤3:分别利用文本线跟踪算法和非边界行的文本线跟踪算法对文档图像的选定区域进行OCR识别,并分别得到文档图像的倾斜角度ka和kb以及识别效果参数Ia和Ib;步骤4:判断Ia和Ib的大小,当Ia≥Ib时,则使用倾斜角度ka对整个文档图像进行校正处理;当Ia<Ib时,则使用倾斜角度kb对整个文档图像进行校正处理。

【技术特征摘要】
1.一种基于OCR识别反馈的文档图像倾斜校正方法,其特征是所述方法包括步骤1:输入文档图像;步骤2 选择文档图像中的一个矩形区域;步骤3 分别利用文本线跟踪算法和非边界行的文本线跟踪算法对文档图像的选定区域进行OCR识别,并分别得到文档图像的倾斜角度ka和kb以及识别效果参数Ia和Ib ;步骤4 判断Ia和Ib的大小,当Ia > Ib时,则使用倾斜角度kji整个文档图像进行校正处理;当Ia < Ib时,则使用倾斜角度kb对整个文档图像进行校正处理。2.根据权利要求1所述的一种基于OCR识别反馈的文档图像倾斜校正方法,其特征是所述利用文本线跟踪算法对文档图像的选定区域进行OCR识别具体包括步骤101 利用文本线跟踪算法对文档图像的选定区域进行处理,得到文档图像的倾斜角度ka ;步骤102 利用倾斜角度1^对文档图像的选定区域进行校正处...

【专利技术属性】
技术研发人员:童立靖宋丽华曾凡锋付晓玲王景中
申请(专利权)人:北方工业大学
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1