图像校正方法、装置及计算机可读存储介质制造方法及图纸

技术编号:19635628 阅读:24 留言:0更新日期:2018-12-01 16:16
本发明专利技术公开了一种图像校正方法、装置及计算机可读存储介质,属于图像处理技术领域,方法包括:针对图像校正涉及的多个校正步骤的至少一个校正步骤,对应构建至少一个神经网络模型;基于多个校正步骤和至少一个神经网络模型,生成流程配置文件;在流程配置文件中对多个校正步骤之间的流转逻辑进行配置,生成图像校正流程;当接收到图像校正指令时,根据图像校正流程对目标图像进行校正,并输出校正后的所述目标图像。本发明专利技术实施例能够针对不同场景下的带有文字资料的图像信息,校正成规范的、易于检测与识别的图像信息,且采用深度学习的方式构建神经网络模型,并应用在图像校正流程的校正步骤中,使得对图像校正获得更高的准确率。

Image Correction Method, Device and Computer Readable Storage Media

The invention discloses an image correction method, device and computer readable storage medium, belonging to the field of image processing technology. The method comprises: constructing at least one neural network model corresponding to at least one correction step of multiple correction steps involved in image correction; building at least one neural network model based on multiple correction steps and at least one nerve. The network model generates the process configuration file; configures the flow logic among the correction steps in the process configuration file to generate the image correction process; when receiving the image correction instruction, corrects the target image according to the image correction process, and outputs the corrected target image. The embodiment of the present invention can correct the image information with text data in different scenarios into standard image information which is easy to detect and recognize, and construct a neural network model by depth learning, and apply it in the correction step of the image correction process, so as to obtain higher accuracy of image correction.

【技术实现步骤摘要】
图像校正方法、装置及计算机可读存储介质
本专利技术属于图像处理
,尤其涉及一种图像校正方法、装置及计算机可读存储介质。
技术介绍
光学字符识别(OpticalCharacterRecognition,OCR)通常应用于文档处理、识别中,是通过扫描、拍照等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。光学字符识别技术一直是辅助人们进行图像识别、文档阅读、解析与处理的重要技术手段,广泛应用于银行、保险、税务、审计、法律等行业。利用光学字符识别文档图像,对文档图像有一定要求,如果文档图像由于器材属性、操作条件的限制导致光学器件拍摄、扫描的图像信息中,包含一定程度的噪声、畸变因素,以及图像资料背景复杂,存在如底纹、水印、底线、框线或加盖印章干扰叠加,则会对文字检测与识别造成很大影响,使文档检测、识别结果与真实语义信息不符,从而给基于文档识别的流程或具体业务带来困难。因此需要在光学字符识别文档图像之前,对文档图像进行图像校正。传统的图像矫正方法存在着诸多缺陷,比如在流程方面,缺乏通用的、系统的流程,难以将真实场景下的带有文字资料的图像信息,矫正成规范的、易于检测与识别的图像信息;又比如,在算法方面,缺乏通用性与准确性,无法覆盖所有场景下的带噪声、畸变的图像,其中的某些算法单元,如透视变换矫正、去水印、去印章等步骤,难以达到预期效果。
技术实现思路
为了解决现有技术的问题,本专利技术提供了一种图像校正方法、装置及计算机可读存储介质,能够针对不同场景下的带有文字资料的图像信息,校正成规范的、易于检测与识别的图像信息,且采用深度学习的方式构建神经网络模型,并应用在图像校正流程的校正步骤中,使得对图像校正获得更高的准确率。本专利技术实施例提供的具体技术方案如下:第一方面,本专利技术提供一种图像校正方法,所述方法包括:针对图像校正涉及的多个校正步骤的至少一个校正步骤,对应构建至少一个神经网络模型;基于所述多个校正步骤和所述至少一个神经网络模型,生成流程配置文件;在所述流程配置文件中对所述多个校正步骤之间的流转逻辑进行配置,生成图像校正流程;当接收到图像校正指令时,根据所述图像校正流程对目标图像进行校正,并输出校正后的所述目标图像。在一些实施例中,所述针对图像校正涉及的多个校正步骤的至少一个校正步骤,对应构建至少一个神经网络模型包括:利用标注出边缘区域的图像样本对第一神经网络进行训练,构建对应于透视变换校正步骤的边缘检测模型,以便在所述透视变换校正步骤使用所述边缘检测模型进行图像边缘检测;和/或利用单字样本与随机背景合成形成的单字训练样本对第二神经网络进行训练,构建对应于旋转校正步骤的文字检测模型,以便在所述旋转校正步骤使用所述文字检测模型进行单字检测;和/或利用所述单字样本进行随机方向旋转生成的带旋转方向标签的单字训练样本对第三神经网络进行训练,构建对应于旋转校正步骤的文字方向检测模型,以便在所述旋转校正步骤使用所述文字方向检测模型进行方向检测;和/或利用标注出印章区域的图像样本对第四神经网络进行训练,构建对应于旋转校正步骤的印章检测模型,以便在所述印章去除步骤使用所述印章检测模型进行印章检测。在一些实施例中,所述图像校正流程依序包括透视变换校正步骤、旋转校正步骤、底纹去除步骤、印章去除步骤以及表格线去除步骤。在一些实施例中,所述透视变换校正步骤包括:对待透视变换校正图像进行图像边缘检测,并对图像边缘进行直线拟合和连通域分析,确定出图像中所述文字资料所在的四边形区域;对所述待透视变换校正图像进行超像素块分割,并对分割得到的超像素块进行显著性检测和前景区域聚类,确定出前景区域及所述前景区域的最小外接四边形;根据计算得到的所述最小外接四边形与所述四边形区域的并集结果,对所述待透视变换校正图像进行透视变换。在一些实施例中,所述旋转校正步骤包括:对待旋转校正图像中的单字进行单字检测,获取面积最大的预设数量的单字区域;对各个所述单字区域进行方向检测,并根据方向检测结果校正所述待旋转校正图像。在一些实施例中,所述底纹去除步骤包括:对待去除底纹的图像进行颜色空间变换;对颜色空间变换得到的所述待去除底纹图像进行二值化,得到前景文字区域与背景水印区域;对所述前景文字区域与所述待去除底纹的图像的原图进行前景掩膜操作,保留所述前景文字区域,去除所述背景水印区域。在一些实施例中,所述印章去除步骤包括:对待去除印章的图像进行印章检测,检测出所有印章区域;提取各个所述印章区域,并对提取出的所述印章区域进行颜色空间变换;对颜色空间变换得到的所述印章区域进行颜色聚类及二值化,得到前景印章区域和背景文字区域;将所述背景文字区域与所述待去除印章的图像的原图进行背景掩膜操作,保留所述背景文字区域,去除所述前景印章区域。在一些实施例中,所述表格线去除步骤包括:对待去除表格线的二值化图像进行反色处理,得到反色图像;构建垂直结构单元和水平结构单元,并使用所述垂直结构单元和所述水平结构单元分别对所述待去除表格线的二值化图像进行腐蚀和膨胀,得到只有水平表格边线和垂直表格边线的二值图;将所述待去除表格线的二值化图像与得到的所述二值图进行按位相减,得到去掉表格边线的图像,并对得到的去掉表格边线的所述图像再次反色处理。在一些实施例中,所述基于所述多个校正步骤和所述至少一个神经网络模型,生成流程配置文件步骤之后,所述方法还包括:基于不同图像的场景类型,对所述多个校正步骤之间的流转逻辑进行动态配置,生成与多个场景类型具有对应关系的多个图像校正流程。在一些实施例中,所述当接收到图像校正指令时,根据所述配置文件定义的所述图像校正流程对目标图像进行校正包括:获取所述目标图像的场景类型;在所述多个图像校正流程中,确定与所述目标图像的场景类型相对应的目标图像校正流程;根据所述目标图像校正流程对所述目标图像进行校正。第二方面,提供了一种基于第一方面任一所述的方法的图像校正装置,所述装置包括:构建模块,用于针对图像校正涉及的多个校正步骤的至少一个校正步骤,对应构建至少一个神经网络模型;第一生成模块,用于基于所述多个校正步骤和所述至少一个神经网络模型,生成流程配置文件;第二生成模块,用于在所述流程配置文件中对所述多个校正步骤之间的流转逻辑进行配置,生成图像校正流程;校正模块,用于当接收到图像校正指令时,根据所述图像校正流程对目标图像进行校正,并输出校正后的所述目标图像。第三方面,提供了一种图像校正装置,所述装置包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述第一方面任一所述的方法。第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述第一方面任一所述的方法。与传统的图像矫正方法相比,本专利技术实施例具有如下有益效果:1、将图像校正的多个校正步骤组合起来,形成一套完整、通用的图像校正流程,实现端到端(end-to-end)的图像矫正,能够针对不同场景下的带有文字资料的图像信息,校正成规范的、易于检测与识别的图像信息;2、采用深度学习的方式构建神经网络模型,并应用在图像校正流程的校正步本文档来自技高网...

【技术保护点】
1.一种图像校正方法,其特征在于,所述方法包括:针对图像校正涉及的多个校正步骤的至少一个校正步骤,对应构建至少一个神经网络模型;基于所述多个校正步骤和所述至少一个神经网络模型,生成流程配置文件;在所述流程配置文件中对所述多个校正步骤之间的流转逻辑进行配置,生成图像校正流程;当接收到图像校正指令时,根据所述图像校正流程对目标图像进行校正,并输出校正后的所述目标图像。

【技术特征摘要】
1.一种图像校正方法,其特征在于,所述方法包括:针对图像校正涉及的多个校正步骤的至少一个校正步骤,对应构建至少一个神经网络模型;基于所述多个校正步骤和所述至少一个神经网络模型,生成流程配置文件;在所述流程配置文件中对所述多个校正步骤之间的流转逻辑进行配置,生成图像校正流程;当接收到图像校正指令时,根据所述图像校正流程对目标图像进行校正,并输出校正后的所述目标图像。2.根据权利要求1所述的方法,其特征在于,所述针对图像校正涉及的多个校正步骤的至少一个校正步骤,对应构建至少一个神经网络模型包括:利用标注出边缘区域的图像样本对第一神经网络进行训练,构建对应于透视变换校正步骤的边缘检测模型,以便在所述透视变换校正步骤使用所述边缘检测模型进行图像边缘检测;和/或利用单字样本与随机背景合成形成的单字训练样本对第二神经网络进行训练,构建对应于旋转校正步骤的文字检测模型,以便在所述旋转校正步骤使用所述文字检测模型进行单字检测;和/或利用所述单字样本进行随机方向旋转生成的带旋转方向标签的单字训练样本对第三神经网络进行训练,构建对应于旋转校正步骤的文字方向检测模型,以便在所述旋转校正步骤使用所述文字方向检测模型进行方向检测;和/或利用标注出印章区域的图像样本对第四神经网络进行训练,构建对应于旋转校正步骤的印章检测模型,以便在所述印章去除步骤使用所述印章检测模型进行印章检测。3.根据权利要求1或2所述的方法,其特征在于,所述图像校正流程依序包括透视变换校正步骤、旋转校正步骤、底纹去除步骤、印章去除步骤以及表格线去除步骤。4.根据权利要求3所述的方法,其特征在于,所述透视变换校正步骤包括:对待透视变换校正图像进行图像边缘检测,并对图像边缘进行直线拟合和连通域分析,确定出图像中所述文字资料所在的四边形区域;对所述待透视变换校正图像进行超像素块分割,并对分割得到的超像素块进行显著性检测和前景区域聚类,确定出前景区域及所述前景区域的最小外接四边形;根据计算得到的所述最小外接四边形与所述四边形区域的并集结果,对所述待透视变换校正图像进行透视变换。5.根据权利要求3所述的方法,其特征在于,所述旋转校正步骤包括:对待旋转校正图像中的单字进行单字检测,获取面积最大的预设数量的单字区域;对各个所述单字区域进行方向检测,并根据方向检测结果校正所述待旋转校正图像。6.根据权利要求3所述的方法,其特征在于,所述底纹去除步骤包括:对待去除底纹的图像进行颜色空间变换;对颜色空间变换得到的所述待去除底纹图像进行二值化,得到前景文字区域与背景水印区域;对所述前景文字区域与所述待去除底纹的图像的原图进行前景掩膜操作,保...

【专利技术属性】
技术研发人员:谢畅王恒陆王天宇孙谷飞
申请(专利权)人:众安信息技术服务有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1