【技术实现步骤摘要】
一种证照OCR识别方法
[0001]本专利技术涉及图像识别
,特别指一种证照OCR识别方法。
技术介绍
[0002]OCR(Optical Character Recognition,光学字符识别)技术是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机语言的输入技术。
[0003]随着图像传感器的不断发展,尤其是各种手机和专业(如安防)摄像头数目的指数增加,计算机图像数据在飞速增加;但图像质量则相对于传统的扫描仪或各种专业相机有所降低,使得传统汉字OCR技术面临源图像数据质量不高、污染严重,导致识别率剧烈下降。
[0004]计算机图像的汉字内容识别(汉字OCR)是图像识别中的难点问题,相对于英文字符识别,汉字由于数量众多、基本字符相似度高,导致易受干扰,分辨困难。对于证照,还会受到征照本身复杂底纹的影响,降低了识别的准确率。针对手机拍摄的各种票据,传统的OCR厂商识别效果均不理想,虽然以深度神经网络为基础的端到端的OC ...
【技术保护点】
【技术特征摘要】
1.一种证照OCR识别方法,其特征在于:包括如下步骤:步骤S10、获取大量的证照样本图片以及证照信息,创建一训练字典以及若干证照背景图片,基于所述证照信息、训练字典以及证照背景图片生成证照训练图片集;步骤S20、创建一证照分类模型,利用所述证照样本图片对证照分类模型进行训练;步骤S30、基于证照类型创建若干个文本识别模型,利用所述证照训练图片集对文本识别模型进行训练;步骤S40、利用训练后的所述证照分类模型以及文本识别模型对待识别证照进行分类和识别。2.如权利要求1所述的一种证照OCR识别方法,其特征在于:所述步骤S10具体包括:步骤S11、获取大量的证照样本图片以及证照信息,创建一训练字典以及若干证照背景图片;所述证照信息至少包括姓名、地址、身份证号码以及民族;所述训练字典基于字符生成;步骤S12、基于所述证照信息生成文本图片,将各所述文本图片利用泊松融合算法融合到各证照背景图片,生成各证照类型的证照训练图片;步骤S13、对各所述证照训练图片进行随机处理;步骤S14、基于各所述证照训练图片的字符在训练字典内的顺序,分别生成一对应的图片标签,基于各随机处理后的所述证照训练图片以及图片标签组成证照训练图片集。3.如权利要求2所述的一种证照OCR识别方法,其特征在于:所述步骤S13具体为:对各所述证照训练图片加入随机噪声,随机调整各所述证照训练图片的亮度值,利用透视变换法随机变换各所述证照训练图片内字符的倾斜角度。4.如权利要求1所述的一种证照OCR识别方法,其特征在于:所述步骤S20具体包括:步骤S21、基于深度神经网络创建一证照分类模型;步骤S22、标记各所述证照样本图片的证照类型,将标记后的各所述证照样本...
【专利技术属性】
技术研发人员:王鹏,
申请(专利权)人:福建新大陆软件工程有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。