【技术实现步骤摘要】
一种基于深度学习的OCR方法
本专利技术涉及计算机软件中图像识别
,尤其涉及一种基于深度学习的OCR方法。
技术介绍
基于光学字符识别(以下简称OCR)的针对文字区域检测定位识别技术是指通过计算机等设备,利用OCR技术将纸质材料中的有效信息自动提取和识别出来,并进行相应处理,它是实现无纸化的计算机自动处理的关键技术之一。而传统的图像文字识别即为OCR,即将待识别纸质文件扫描成电子图像的基础上进行识别。但是考虑到扫描效果的好坏、纸质文件本身的品质(比如印刷质量、字体清晰度,字体规范度等)、内容布局(文字的排列情况,比普通文本与表格文本和票据)的差异,OCR的实际效果不总是让人满意。而针对不同的纸质文档的识别准确率的要求有差异,比如票据的识别,对准确率的要求是非常高的,因为如果一个数字识别错误就可能导致致命的后果,传统的OCR识别不能满足这样高精度的识别要求。面对巨大的识别需要急需能够快速高效的图像文字识别方法。
技术实现思路
针对现有技术的不足,本专利技术提出一种基于深度学习的OCR方法,该方法的具体步骤如下:一种基于深度学习的OCR方法,其特征在于,该方法包括如 ...
【技术保护点】
1.一种基于深度学习的OCR方法,其特征在于,该方法包括如下步骤:S1:获取待识别图像;S2:对待识别图像进行缩放,然后对缩放后的图像进行预处理,所述的预处理为锐化、灰度化、二值化、矫正倾斜、降噪、去公章中的任意一项或多项;S3:将预处理后的图像放入深度学习神经网络中,得到缩放处理后图像的多个候选文本区域;S4:将缩放处理后图像的多个候选文本区域放入基于深度学习神经网络中,将候选文字区域中的内容转换为计算机可读的文本;S5:将上述计算机可读的文本放入深度学习语言模型中,对文本识别结果进行校正。
【技术特征摘要】
1.一种基于深度学习的OCR方法,其特征在于,该方法包括如下步骤:S1:获取待识别图像;S2:对待识别图像进行缩放,然后对缩放后的图像进行预处理,所述的预处理为锐化、灰度化、二值化、矫正倾斜、降噪、去公章中的任意一项或多项;S3:将预处理后的图像放入深度学习神经网络中,得到缩放处理后图像的多个候选文本区域;S4:将缩放处理后图像的多个候选文本区域放入基于深度学习神经网络中,将候选文字区域中的内容转换为计算机可读的文本;S5:将上述计算机可读的文本放入深度学习语言模型中,对文本识别结果进行校正。2.根据权利要求1所述的方法,其特征在于,所述步骤S2中图像预处理的去公章采用如下方法:S2.1:将待识别图像由RGB颜色空间模型转化到HSI颜色空间模型,采用阈值控制法提取红色分量,并把彩色图像灰度化,然后采用图像细化算法对图像进行细化得到骨架图;S2.2:采用椭圆、圆形和矩形三种形状检测算法对S2.1得到的骨架图进行形状检测,从而定位获取包围公章的最小的矩形轮廓和公章在待识别的图像中的位置,并将印章提取出来;S2.3:将包围公章的最小的矩形轮廓从待识别的图像中分离,然后将剩余的彩色图像灰度化,并使用图像修复算法,获得无印章的图像。3.根据权利要求1所述的方法,其特征在于,所述的S3具体为:S3.1:生成文本区域候选框,以缩放处理后的图像作为inception-RPN网络的输入,在VGG16模型的卷积特征响应图上滑动一个inception网络,并在每个滑动位置辅助一套文本特征先验框,计算每一个候选文本区域的得分;其中,所述的RPN网络是在CNN上增加全卷积层的分类层和边框回归层的全卷积网络,InceptionModule中包含3种1x1,3x3,5x5的不同尺寸的卷积和一个最大3x3池化层,所述的Inception-RPN网络,是模仿Inception结构构造RPN网络,并只用了单层结构的Inception...
【专利技术属性】
技术研发人员:王慜骊,林路,桂晓雷,安通鉴,林康,陈立强,
申请(专利权)人:信雅达系统工程股份有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。