【技术实现步骤摘要】
一种基于深度学习的OCR检测方法
本专利技术涉及一种OCR检测方法,特别涉及一种基于深度学习的OCR检测方法。
技术介绍
从20世纪70年代开始,光学字符识别技术就已经广泛地应用于各种商业应用,现在又开始运用到自动化任务中,如通行证处理、安全文件处理(支票、财务文件、账单)、邮件追踪、出版、消费品包装(单号、批号、有效期)及临床应用等。光学字符识别(OpticalCharacterRecognition),简称OCR,是一种将图像内的文字,转变成计算机文字,进而进行进一步判断的技术。OCR主要优点在于,它可以以一种让机器和肉眼都能识别的格式对信息进行编码。但是当前,在工业自动化应用中面临几个方面的挑战:一、工业字符多种多样一致性差。比如金属零件上点刻字符,注塑产品上的浮雕字符,电子元器件上的激光蚀刻字符,喷码点阵字符等。二、字符不在一个平面上。比如瓶盖或瓶身四周的字符。三、字符背景复杂,很多字符印刷在复杂背景图案内部,字符对比度低。四、字符可能存在严重的扭曲、变形、断裂,粘连等 ...
【技术保护点】
1.一种基于深度学习的OCR检测方法,其特征在于,包括:/n步骤1:采集待测字符图片信息;/n步骤2:将待测字符图片送入字符检测网络中进行单个字符的位置提取,确定待测字符图片中每个单字符大致的外包矩形区域;/n步骤3:根据待测字符图片中的可能字符外包矩形区域进行字符笔画区域分割,采集图片中的字符区域;/n步骤4:根据字符区域分割的信息,对字符外包矩形位置进行调整,采集字符区域内各个字符的准确外包矩形区域;/n步骤5:对采集到的各个字符信息进行识别确认,完成OCR检测过程。/n
【技术特征摘要】
1.一种基于深度学习的OCR检测方法,其特征在于,包括:
步骤1:采集待测字符图片信息;
步骤2:将待测字符图片送入字符检测网络中进行单个字符的位置提取,确定待测字符图片中每个单字符大致的外包矩形区域;
步骤3:根据待测字符图片中的可能字符外包矩形区域进行字符笔画区域分割,采集图片中的字符区域;
步骤4:根据字符区域分割的信息,对字符外包矩形位置进行调整,采集字符区域内各个字符的准确外包矩形区域;
步骤5:对采集到的各个字符信息进行识别确认,完成OCR检测过程。
2.根据权利要求1所述基于深度学习的OCR检测方法,其特征在于,所述字符检测网络的训练方法如下:
步骤1:采集字符样本;
步骤2:对字符样本进行丰富,并退化处理,送入神经网络;
步骤3:将各个字符样本作为同一目标类型进行训练,得到字符检测网络。
3.根据权利要求2所述基于深度学习的OCR检测方法,其特征在于,所述退化处理包括对字符样本的模拟扭曲、缩放、笔画粗细变更、亮度变化、对比度变化、随机位置、随机角度调整。
4.根据权利要求3所述基于深度学习的OCR检测方法,其特征在于,所述模拟扭曲的具体过程如下:
A、加入输入的字符样本Image,长宽分别为W和H,生成两张向量图ImageX,ImageY,长宽分别为W/A、H/A,A的取值为3~8
B、使用随机数生成算法用随机数填充ImageX和ImageY的每个像素,随机数的范围为-2~2;将ImageX和ImageY用立方插值的方法将长宽缩放到W和H;
C、将字符样本Image的每个像素根据ImageX和ImageY对应位置的值分别移动,得到扭曲后图像ImageDistortion。
5.根据权利要求2所述基于深度学习的OCR检测方法,其特征在于,所述字符检测网络的训练方法包括:
对于416x416的输入尺寸,在YOLOV3tiny前两层的特征图分别为13x13、26x26,在主干网络后继续增加两个或两个以上的upsample...
【专利技术属性】
技术研发人员:孙余顺,邹易,赖伟海,赖明钟,
申请(专利权)人:赖明钟,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。