The invention relates to the field of computer technology, in particular to the field of pattern recognition and deep learning, and more specifically to a method of character recognition based on OCR font similarity. Changing the traditional font recognition method can recognize both character text and font. By comparing multiple samples and adding threshold screening, not only the accuracy of text recognition is greatly improved, but also the character font is effectively recognized. It is especially suitable for character recognition of similar fonts and fonts, and realizes double accurate recognition of fonts and fonts. Each character is cut into 96*96 pixels by horizontal and vertical segmentation, which facilitates the extraction of pixel feature information, avoids interference between adjacent characters and effectively improves recognition efficiency. The designer of the present invention cuts each character into 96*96 pixels in books, newspapers, clothes and screen captures and other pictures to extract character pixel feature information, and the extraction rate is close to 100%.
【技术实现步骤摘要】
一种基于OCR字形相近文字识别方法
本专利技术涉及计算机
,特别是涉及模式识别和深度学习领域,更具体地涉及一种基于OCR字形相近文字识别方法。
技术介绍
光学字符识别(OpticalCharacterRecognition,简称OCR)是结合光学技术和计算机技术将印在纸上的图像文件转化为文本文件的一种方式,OCR识别可用于银行票据、大量文献资料、档案卷宗、税务单等票据的自动扫描和长期存储。OCR识别通常以识别率、识别速度、版面理解和版面重构度作为衡量的技术标准。该技术对一般字符有比较好的识别率,但是对于结构和字形丰富的汉字领域还存在一定的技术难题,特别是对于字形相近,如:(午、干、干)、(跑、泡、炮)等字符存在识别效率低下和精度不高的问题。此外现有技术对字符的相同字形不同字体无法判断,相同字形不同字体进行识别时非常容易发生错误,多次反复识别结果不一,有时需要人工介入纠错,大幅降低识别准确性。
技术实现思路
本专利技术提供一种识别率高、识别快捷和精度高的基于OCR字形相近文字识别方法。本专利技术解决其技术问题所采用的技术方案为:一种基于OCR字形相近文字识别方法, ...
【技术保护点】
1.一种基于OCR字形相近文字识别方法,其特征在于包括如下步骤:A、原始OCR图像预处理对倾斜字符进行文本校正,对图片中的噪声去除,对图像对比度和Gamma校正转化为灰度图像;B、图像文字检测对预处理的灰度图像进行字符像素特征信息的提取,并采用CNN神经网络进行字符像素特征信息的提取将其转化为独热编码形式的特征向量,作为字符识别模块字符像素特征信息识别的依据;C、识别计算使用标准字库的不同字体作为训练样本n,标准字库的每种不同字体记为n1、n2、、、,计算出训练样本每种字体的欧氏距离Dn1、Dn2、、、, 字符识别模块采用google‑Inception‑v4构架,对待识别 ...
【技术特征摘要】
1.一种基于OCR字形相近文字识别方法,其特征在于包括如下步骤:A、原始OCR图像预处理对倾斜字符进行文本校正,对图片中的噪声去除,对图像对比度和Gamma校正转化为灰度图像;B、图像文字检测对预处理的灰度图像进行字符像素特征信息的提取,并采用CNN神经网络进行字符像素特征信息的提取将其转化为独热编码形式的特征向量,作为字符识别模块字符像素特征信息识别的依据;C、识别计算使用标准字库的不同字体作为训练样本n,标准字库的每种不同字体记为n1、n2、、、,计算出训练样本每种字体的欧氏距离Dn1、Dn2、、、,字符识别模块采用google-Inception-v4构架,对待识别图像文字进行识别作为识别样本p,计算出识别样本p的欧式距离DP,使用如下公式计算出识别样本与不同字体训练样本对比阈值a,、、、、;D、字符文本字体识别选择对比阈值a1、a2、...
【专利技术属性】
技术研发人员:席敬,焦勇,伏虎,
申请(专利权)人:甘肃万维信息技术有限责任公司,
类型:发明
国别省市:甘肃,62
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。