图像矫正方法、不规则文本识别方法、装置、存储介质和设备制造方法及图纸

技术编号:24356792 阅读:57 留言:0更新日期:2020-06-03 02:44
本发明专利技术公开了一种图像矫正方法,包括:获取待识别的不规则文本;对待识别不规则文本图像进行预处理,得到N段待矫正的子图像,N大于或等于2,每段子图像包含有不规则文字;分别对所述N段待矫正的子图像进行透视矫正,以得到N段矫正子图像;将所述N段矫正子图像进行拼接得到最终的矫正图像。本方明不同于现有算法,选择较为简单的三维几何变换(透视变换)作为矫正的标准,化繁为简,将文本行切分为多段(本发明专利技术以两段为例),针对每一段进行透视变换,再将几何变换后的图像拼接。

Image correction method, irregular text recognition method, device, storage medium and equipment

【技术实现步骤摘要】
图像矫正方法、不规则文本识别方法、装置、存储介质和设备
本专利技术涉及文本行识别领域,具体涉及一种图像矫正方法、不规则文本识别方法、装置、存储介质和设备。
技术介绍
目前不规则文本识别的最通用的算法是华中科技大学白翔教授发表在PAMI上的《Aster:AnAttentionalSceneTextRecognizerwithFlexibleRectification》,针对不规则场景图像文本行进行几何校正后识别文本内容。其中采用的神经网络框架包括两个部分:几何校正子网络和序列文本识别子网络,其中几何校正子网络是学习TPS(样条薄板差值)变换参数,利用预测的参数对不规则文本进行几何校正,后基于Attention(注意力机制)进行基于字符序列的文本内容识别。不足之处,TPS变换是一种较复杂的三维空间变换算法,在遇到形变较大的文本时,校正效果不佳。其他基于Aster上研发的不规则文本识别方法,多分为两种:一种是检测单个字符并分类识别,再组合为字符序列(即文本行);另一种类似Aster,先对整个文本行进行几何校正,再基于CTC(Connectio本文档来自技高网...

【技术保护点】
1.一种图像矫正方法,其特征在于,所述图像矫正方法包括:/n获取待识别的不规则文本;/n对待识别的不规则文本图像进行预处理,得到N段待矫正的子图像,N大于或等于2,每段子图像包含有不规则文字;/n分别对所述N段待矫正的子图像进行透视矫正,以得到N段矫正子图像;/n将所述N段矫正子图像进行拼接得到最终的矫正图像。/n

【技术特征摘要】
1.一种图像矫正方法,其特征在于,所述图像矫正方法包括:
获取待识别的不规则文本;
对待识别的不规则文本图像进行预处理,得到N段待矫正的子图像,N大于或等于2,每段子图像包含有不规则文字;
分别对所述N段待矫正的子图像进行透视矫正,以得到N段矫正子图像;
将所述N段矫正子图像进行拼接得到最终的矫正图像。


2.根据权利要求1所述的图像矫正方法,其特征在于,获取矫正子图像,包括:
获取待矫正的子图像的透视变换矩阵,所述透视变换矩阵表示待矫正的子图像与矫正后的子图像间的变换关系;
利用所述透视变换矩阵从待矫正的子图像中提取出矫正后的子图像中每一个像素点所对应的像素值;
将提取出的像素值按待矫正的子图像与矫正后的子图像间的变换关系填充至矫正后的子图像中,得到矫正子图像。


3.根据权利要求2所述的图像矫正方法,其特征在于,所述获取待矫正的子图像的透视变换矩阵,包括:
根据第N-1子图像的透视变换矩阵计算第N-1子图像中的文字区域角点坐标;
根据第N-1子图像的文字区域角点坐标与第N子图像中的文字区域的坐标计算第N子图像的透视变换矩阵。


4.根据权利要求2所述的图像矫正方法,其特征在于,计算第一子图像的透视变换矩阵,包括:
计算第一子图像的变换偏移矩阵;
根据所述变换偏移矩阵与单位矩阵得到第一子图像的透视变换矩阵。


5.一种图像矫正装置,其特征在于,所述图像矫正装置包括:
图像获取模块,用于获取待识别的不规则文本;
图像预处理模块,用于对待识别的不规则文本图像进行预处理,得到N段待矫正的子图像,N大于或等于2,每段子图像包含有不规则文字;
图像矫正模块,用于分别对所述N段待矫正的子图像进行透视矫正,以得到N段矫正子图像;
图像拼接模块,用于将所述N段矫正子图像进行拼接得到最终的矫正图像。


6.根据权利要求...

【专利技术属性】
技术研发人员:徐卉周祥东石宇程俊罗代建
申请(专利权)人:中国科学院重庆绿色智能技术研究院中国科学院大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1