对文档图像进行透视校正的方法和设备技术

技术编号:15569388 阅读:70 留言:0更新日期:2017-06-10 03:07
本发明专利技术公开了一种对文档图像进行透视校正的方法和设备。该方法包括:确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容;根据所述长阿拉伯数字串的内容,创建参考图像;根据所述长阿拉伯数字串所在的部分与所述参考图像,计算校正函数;以及根据所述校正函数,对所述文档图像进行透视校正。

Method and apparatus for fluoroscopic correction of document images

The present invention discloses a method and apparatus for fluoroscopic correction of document images. The method includes: determining the document image in Arabia on the part of the digital and the long string of Arabia digital content; according to the Arabia long digital string content, create a reference image; according to the Arabia part of the digit string and the reference image, and calculate the correction function; according to the correction function, the document image perspective correction.

【技术实现步骤摘要】

本专利技术一般地涉及图像处理领域。具体而言,本专利技术涉及一种能够对包含长阿拉伯数字串的文档图像进行透视校正的方法和设备。
技术介绍
在现代社会中,存在有各种各样的证件、卡片、文档等,例如身份证,名片,银行卡,户口本,驾驶证,护照、派出所的户籍管理文档等。某些单位或者个人需要频繁的收集或存档这些信息,需要将这些证件、卡片、文档等留存电子件。除了一些特殊的读取工具以外,通常的电子化方法就是拍照,然后存储图像或者对图像进行识别后存储所识别的信息。在拍照留存的过程中,往往需要解决透视变换的问题。这是因为:由于环境或设备的限制,对这些证件、卡片、文档等进行拍摄时,有可能不是正对着拍摄对象的表面拍摄,而是与拍摄对象的表面的法线方向之间存在一定的角度,造成拍照结果受到倾斜的影响,这种倾斜通常被称为透视变换。为了下一步的识别和存储,必须对图像进行透视校正,然后才能进行版面分析、识别等后续处理。传统的方法是分析拍摄的图像,找出其边缘和角点,或者直接识别图像的内容,根据上述信息与标准模板进行比对,根据透视变换模型建立变换公式,进行透视投影变换。因此,传统的方法在每次校正之前,都需要建立特定于证件、卡片、文档等的标准模板,根据拍摄图像和标准模板图像之间的匹配进行校正。建立标准模板通常是非常繁琐的事情,需要用尺子测量所有要用到的角点之间的相对距离。如果需要电子化的证件、卡片、文档等的种类比较多,或者同一种电子化对象的信息位置不固定,那么这些方法就不太适用。另外,如果用户手持身份证进行拍摄的话,手容易挡住身份证的四个角点,无法基于角点进行处理。也就是说,传统的进行透视校正的方法和设备严重依赖于标准模板,准备标准模板的工作量大,标准模板的适应性不广,灵活性低,透视校正效果不稳定。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。本专利技术的目的是提出一种不依赖于预先准备的标准模板、能够灵活地对包含长阿拉伯数字串的文档图像进行透视校正的方法和设备。为了实现上述目的,根据本专利技术的一个方面,提供了一种对包含长阿拉伯数字串的文档图像进行透视校正的方法,该方法包括:确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容;根据所述长阿拉伯数字串的内容,创建参考图像;根据所述长阿拉伯数字串所在的部分与所述参考图像,计算校正函数;以及根据所述校正函数,对所述文档图像进行透视校正。根据本专利技术的另一个方面,提供了一种对包含长阿拉伯数字串的文档图像进行透视校正的设备,该设备包括:数字串确定装置,被配置为:确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容;参考图像创建装置,被配置为:根据所述长阿拉伯数字串的内容,创建参考图像;校正函数计算装置,被配置为:根据所述长阿拉伯数字串所在的部分与所述参考图像,计算校正函数;以及透视校正装置,被配置为:根据所述校正函数,对所述文档图像进行透视校正。另外,根据本专利技术的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本专利技术的上述方法。此外,根据本专利技术的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本专利技术的上述方法。附图说明参照下面结合附图对本专利技术的实施例的说明,会更加容易地理解本专利技术的以上和其它目的、特点和优点。附图中的部件只是为了示出本专利技术的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:图1示出了根据本专利技术的实施例的对包含长阿拉伯数字串的文档图像进行透视校正的方法的流程图;图2示出了确定所述文档图像中所述长阿拉伯数字串所在的部分的流程图;图3示出了输入文档图像和经过步骤S1处理后得到的中间结果;图4示出了长阿拉伯数字串所在的部分的示例;图5示出了特征点提取的示例;图6(a)和图6(b)分别示出了透视校正前的输入文档图像和透视校正后的变换结果;图6(c)示出了识别结果;图7示出了根据本专利技术的实施例的对包含长阿拉伯数字串的文档图像进行透视校正的设备的结构方框图;以及图8示出了可用于实施根据本专利技术的实施例的方法和设备的计算机的示意性框图。具体实施方式在下文中将结合附图对本专利技术的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中仅仅示出了与根据本专利技术的方案密切相关的装置结构和/或处理步骤,而省略了与本专利技术关系不大的其他细节。另外,还需要指出的是,在本专利技术的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。下面将参照图1描述根据本专利技术的实施例的对包含长阿拉伯数字串的文档图像进行透视校正的方法的流程。图1示出了根据本专利技术的实施例的对包含长阿拉伯数字串的文档图像进行透视校正的方法的流程图。如图1所示,根据本专利技术的实施例的对包含长阿拉伯数字串的文档图像进行透视校正的方法包括如下步骤:确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容(步骤S1);根据所述长阿拉伯数字串的内容,创建参考图像(步骤S2);根据所述长阿拉伯数字串所在的部分与所述参考图像,计算校正函数(步骤S3);以及根据所述校正函数,对所述文档图像进行透视校正(步骤S4)。如上所述,文档图像包括各种证件、卡片、文档等的图像,包括身份证,名片,银行卡,户口本,驾驶证,护照、派出所的户籍管理文档等的图像。这些文档图像的共同特点是包含长阿拉伯数字串,例如身份证号、卡号等。由于有些身份证号的尾号是X,而不是数字,所以在下文中,为了处理方便,只取身份证号的纯数字部分作为长阿拉伯数字串的示例。由于长阿拉伯数字串与文档图像的其它部分具有显著区别,所以可以相对容易和准确地定位和分析长阿拉伯数字串所在的部分,从而确定用于透视校正的校正函数。因此,根据本专利技术,首先在步骤S1中,确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容。具体地,参见图2,确定所述文档图像中所述长阿拉伯数字串所在的部分包括:对所述文档图像进行二值化处理,以得到二值化图像(步骤S11);提取所述二值化图像中的所有连通域(步骤S12);利用数字OCR引擎,对所提取的连通域进行OCR识别(步骤S13);在OCR结果中,搜索置信度高、彼此接近、形成一个最长串的本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201510830447.html" title="对文档图像进行透视校正的方法和设备原文来自X技术">对文档图像进行透视校正的方法和设备</a>

【技术保护点】
一种对包含长阿拉伯数字串的文档图像进行透视校正的方法,包括:确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容;根据所述长阿拉伯数字串的内容,创建参考图像;根据所述长阿拉伯数字串所在的部分与所述参考图像,计算校正函数;以及根据所述校正函数,对所述文档图像进行透视校正。

【技术特征摘要】
1.一种对包含长阿拉伯数字串的文档图像进行透视校正的方法,包括:确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容;根据所述长阿拉伯数字串的内容,创建参考图像;根据所述长阿拉伯数字串所在的部分与所述参考图像,计算校正函数;以及根据所述校正函数,对所述文档图像进行透视校正。2.如权利要求1所述的方法,其中,确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容包括:对所述文档图像进行二值化处理,以得到二值化图像;提取所述二值化图像中的所有连通域;利用数字OCR引擎,对所提取的连通域进行OCR识别;在OCR结果中,搜索置信度高、彼此接近、形成一个最长串的一组连通域;将所述一组连通域的外接矩形所包围的区域,确定为所述文档图像中所述长阿拉伯数字串所在的部分。3.如权利要求2所述的方法,其中,确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容还包括:将所述OCR结果中与所述长阿拉伯数字串所在的部分对应的识别结果中置信度最高的一组识别结果,确定为所述长阿拉伯数字串的内容。4.如权利要求2所述的方法,其中,对所述文档图像进行二值化处理,以得到二值化图像包括:针对所述文档图像中的每个像素,将该像素的R、G、B中的最大值作为灰度图像中对应位置的像素值,以得到灰度图像;利用二值化阈值,对所述灰度图像进行二值化,以得到二值化图像。5.如权利要求2所述的方法,其中,对所述文档图像进行二值化处理,以得到二值化图像包括:针对所述文档图像中的每个像素,取该像素的R、G、B中的最大值与大于1的预定常数之积、以及255中的较小者,作为灰度图像中对应位置的像素值,以得到灰度图像;利用二值化阈值,对所述灰度图像进行二值化,以得到二值化图像。6.如权利要求4或5所述的方法,其中,在进行二值化之前,还对灰度图像中的每个灰度值pi,进行如下公式所示的黑色像素增强处理:pi=255/(1+(αpi)β...

【专利技术属性】
技术研发人员:李鑫刘伟范伟孙俊
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1