图像矫正方法、不规则文本识别方法、装置、存储介质和设备制造方法及图纸

技术编号:24356792 阅读:53 留言:0更新日期:2020-06-03 02:44
本发明专利技术公开了一种图像矫正方法,包括:获取待识别的不规则文本;对待识别不规则文本图像进行预处理,得到N段待矫正的子图像,N大于或等于2,每段子图像包含有不规则文字;分别对所述N段待矫正的子图像进行透视矫正,以得到N段矫正子图像;将所述N段矫正子图像进行拼接得到最终的矫正图像。本方明不同于现有算法,选择较为简单的三维几何变换(透视变换)作为矫正的标准,化繁为简,将文本行切分为多段(本发明专利技术以两段为例),针对每一段进行透视变换,再将几何变换后的图像拼接。

Image correction method, irregular text recognition method, device, storage medium and equipment

【技术实现步骤摘要】
图像矫正方法、不规则文本识别方法、装置、存储介质和设备
本专利技术涉及文本行识别领域,具体涉及一种图像矫正方法、不规则文本识别方法、装置、存储介质和设备。
技术介绍
目前不规则文本识别的最通用的算法是华中科技大学白翔教授发表在PAMI上的《Aster:AnAttentionalSceneTextRecognizerwithFlexibleRectification》,针对不规则场景图像文本行进行几何校正后识别文本内容。其中采用的神经网络框架包括两个部分:几何校正子网络和序列文本识别子网络,其中几何校正子网络是学习TPS(样条薄板差值)变换参数,利用预测的参数对不规则文本进行几何校正,后基于Attention(注意力机制)进行基于字符序列的文本内容识别。不足之处,TPS变换是一种较复杂的三维空间变换算法,在遇到形变较大的文本时,校正效果不佳。其他基于Aster上研发的不规则文本识别方法,多分为两种:一种是检测单个字符并分类识别,再组合为字符序列(即文本行);另一种类似Aster,先对整个文本行进行几何校正,再基于CTC(ConnectionistTemporalClassification)或Attention进行序列文本的识别。不足:第一种方法需要进行单字符的检测定位,而实际场景中字符分割是很难的,因为受光照、角度、天气、拍摄条件等影响,会出现字符粘连的现象,影响字符分割。第二种方法对整个文本行进行整体的几何校正,针对复杂文本尤其是弯曲文本较难实现很好的矫正,会出现裁切掉部分文字信息的情况如图1所示。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种图像矫正方法、不规则文本识别方法、装置、存储介质和设备,用于解决现有技术的缺陷。为实现上述目的及其他相关目的,本专利技术提供一种图像矫正方法,所述图像矫正方法包括:获取待识别的不规则文本;对待识别的不规则文本图像进行预处理,得到N段待矫正的子图像,N大于或等于2,每段子图像包含有不规则文字;分别对所述N段待矫正的子图像进行透视矫正,以得到N段矫正子图像;将所述N段矫正子图像进行拼接得到最终的矫正图像。可选地,获取矫正子图像进行透视矫正包括:获取待矫正的子图像的透视变换矩阵,所述透视变换矩阵表示待矫正的子图像与矫正后的子图像间的变换关系;利用所述透视变换矩阵从待矫正的子图像中提取出矫正后的子图像中每一个像素点所对应的像素值;将提取出的像素值按待矫正的子图像与矫正后的子图像间的变换关系填充至矫正后的子图像中,得到矫正子图像。可选地,所述获取待矫正的子图像的透视变换矩阵,包括:根据第N-1子图像的透视变换矩阵计算第N-1子图像中的文字区域角点坐标;根据第N-1子图像的文字区域角点坐标与第N子图像中的文字区域的坐标计算第N子图像的透视变换矩阵。可选地,计算第一子图像的透视变换矩阵,包括:计算第一子图像的变换偏移矩阵;根据所述变换偏移矩阵与单位矩阵得到第一子图像的透视变换矩阵。为实现上述目的及其他相关目的,本专利技术提供一种图像矫正装置,所述图像矫正装置包括:图像获取模块,用于获取待识别的不规则文本;图像预处理模块,用于对待识别的不规则文本图像进行预处理,得到N段待矫正的子图像,N大于或等于2,每段子图像包含有不规则文字;图像矫正模块,用于分别对所述N段待矫正的子图像进行透视矫正,以得到N段矫正子图像;图像拼接模块,用于将所述N段矫正子图像进行拼接得到最终的矫正图像。可选地,所述图像矫正模块包括:变换关系获取子模块,用于获取待矫正的子图像的透视变换矩阵,所述透视变换矩阵表示待矫正的子图像与矫正后的子图像间的变换关系;像素提取子模块,用于利用所述透视变换矩阵从待矫正的子图像中提取出矫正后的子图像中每一个像素点所对应的像素值;像素填充子模块,用于将提取出的像素值按待矫正的子图像与矫正后的子图像间的变换关系填充至矫正后的子图像中,得到矫正子图像。可选地,所述变换关系获取子模块包括:角点坐标计算单元,用于根据第N-1子图像的透视变换矩阵计算第N-1子图像中的文字区域角点坐标;透视变换矩计算单元,用于根据第N-1子图像的文字区域角点坐标与第N子图像中的文字区域的坐标计算第N子图像的透视变换矩阵。可选地,计算第一子图像的透视变换矩阵,包括:计算第一子图像的变换偏移矩阵;根据所述变换偏移矩阵与单位矩阵得到第一子图像的透视变换矩阵。为实现上述目的及其他相关目的,本专利技术提供一种不规则文本行识别方法,其特征在于,该识别方法包括:接收所述的最终的矫正图像;识别所述最终的矫正图像中的文字。为实现上述目的及其他相关目的,本专利技术提供一种不规则文本行识别装置,其特征在于,该识别装置包括:图像接收模块,用于接收所述的最终的矫正图像;图像识别模块,用于识别所述最终的矫正图像中的文字。为实现上述目的及其他相关目的,本专利技术提供一种存储介质,存储计算机程序,所述计算机程序被处理器运行时执行所述的图像矫正方法。为实现上述目的及其他相关目的,本专利技术提供一种设备,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述设备执行所述的图像矫正方法。如上所述,本专利技术的一种图像矫正方法、不规则文本识别方法、装置、存储介质和设备,具有以下有益效果:1、本方明不同于现有算法,选择较为简单的三维几何变换(透视变换)作为矫正的标准,化繁为简,将文本行切分为多段(本专利技术以两段为例),针对每一段进行透视变换,再将几何变换后的图像拼接,实现最终的文本矫正。2、本专利技术同样适用于多种不规则文本,包括透视形变文本、旋转文本、弯曲文本等。附图说明图1为文本图像,(a)表示原始图像,(b)表示裁切后的图像;图2为包括文字发生形变的文本图像,(a)表示常规文本,(b)表示倾斜和透视形变文本,(c)表示弯曲文本;图3为本专利技术一实施例一种图像矫正方法的流程图;图4为车牌图像透视矫正示例图(非分段情况),(a)为原始图像,(b)为矫正后的图像;图5为本专利技术一实施例分段透视矫正的流程图;图6为本专利技术一实施例分段透视矫正的网络结构示意图;图7为本专利技术一实施例一种图像矫正装置的示意图;图8为本专利技术一实施例一种不规则文本识别方法的流程图;图9为本专利技术一实施例一种不规则文本识别装置的示意图。具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况本文档来自技高网
...

【技术保护点】
1.一种图像矫正方法,其特征在于,所述图像矫正方法包括:/n获取待识别的不规则文本;/n对待识别的不规则文本图像进行预处理,得到N段待矫正的子图像,N大于或等于2,每段子图像包含有不规则文字;/n分别对所述N段待矫正的子图像进行透视矫正,以得到N段矫正子图像;/n将所述N段矫正子图像进行拼接得到最终的矫正图像。/n

【技术特征摘要】
1.一种图像矫正方法,其特征在于,所述图像矫正方法包括:
获取待识别的不规则文本;
对待识别的不规则文本图像进行预处理,得到N段待矫正的子图像,N大于或等于2,每段子图像包含有不规则文字;
分别对所述N段待矫正的子图像进行透视矫正,以得到N段矫正子图像;
将所述N段矫正子图像进行拼接得到最终的矫正图像。


2.根据权利要求1所述的图像矫正方法,其特征在于,获取矫正子图像,包括:
获取待矫正的子图像的透视变换矩阵,所述透视变换矩阵表示待矫正的子图像与矫正后的子图像间的变换关系;
利用所述透视变换矩阵从待矫正的子图像中提取出矫正后的子图像中每一个像素点所对应的像素值;
将提取出的像素值按待矫正的子图像与矫正后的子图像间的变换关系填充至矫正后的子图像中,得到矫正子图像。


3.根据权利要求2所述的图像矫正方法,其特征在于,所述获取待矫正的子图像的透视变换矩阵,包括:
根据第N-1子图像的透视变换矩阵计算第N-1子图像中的文字区域角点坐标;
根据第N-1子图像的文字区域角点坐标与第N子图像中的文字区域的坐标计算第N子图像的透视变换矩阵。


4.根据权利要求2所述的图像矫正方法,其特征在于,计算第一子图像的透视变换矩阵,包括:
计算第一子图像的变换偏移矩阵;
根据所述变换偏移矩阵与单位矩阵得到第一子图像的透视变换矩阵。


5.一种图像矫正装置,其特征在于,所述图像矫正装置包括:
图像获取模块,用于获取待识别的不规则文本;
图像预处理模块,用于对待识别的不规则文本图像进行预处理,得到N段待矫正的子图像,N大于或等于2,每段子图像包含有不规则文字;
图像矫正模块,用于分别对所述N段待矫正的子图像进行透视矫正,以得到N段矫正子图像;
图像拼接模块,用于将所述N段矫正子图像进行拼接得到最终的矫正图像。


6.根据权利要求...

【专利技术属性】
技术研发人员:徐卉周祥东石宇程俊罗代建
申请(专利权)人:中国科学院重庆绿色智能技术研究院中国科学院大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1