光学字符识别支持系统技术方案

技术编号：26172764 阅读：44 留言：0更新日期：2020-10-31 13:52

本发明专利技术涉及一种光学字符识别支持系统。提供了一种用于提高光学字符识别OCR系统的识别率的计算机实现的方法。该方法包括以下预处理：接收图像；从所述图像中提取所有垂直线。该方法包括：在所述图像的字符区域处添加垂直线；从所述图像中提取所有水平线；以及创建从所述图像中去除所有所述垂直/水平线的无线条图像。该方法还包括：基于每一列中的行像素总数来确定所述无线条图像的垂直方向的边界；以及在所述无线条图像的字符之间添加垂直/水平辅助线。该方法还包括以下后处理：接收OCR输出的乱码单词；在词法上分析之后去除噪声；基于频繁编辑操作，用正确字母替换乱码字母；输出正确单词；以及基于机器学习，对图像距离计算的结果加权。

全部详细技术资料下载

【技术实现步骤摘要】
光学字符识别支持系统
本专利技术一般地涉及光学字符识别(OCR)系统，更具体地说，涉及提高OCR系统的识别率。
技术介绍
电子OCR是将文本(例如，打字、手写或印刷的文本等)的图像电子转换成机器编码的文本。可以从扫描文档、文档照片、场景照片(例如，风景照片中的招牌和广告牌上的文本)、叠加在图像上的字幕文本等提供图像。OCR系统首先识别布局(例如，识别单词和数字的区域)，然后提取单词和数字。可以基于OCR系统在布局、单词和/或数字识别方面的性能对OCR系统进行评估。
技术实现思路
根据本专利技术的实施例，提供了一种用于提高光学字符识别OCR系统的识别率的方法。所述方法包括接收图像；以及从所述图像中提取所有垂直线。所述方法包括在所述图像的字符区域处添加垂直线；以及从所述图像中提取所有水平线。所述方法包括创建从所述图像中去除所有所述垂直线和水平线的无线条图像。所述方法还包括由处理器设备基于每一列中的行像素总数来确定所述无线条图像的垂直方向的边界；以及在所述无线条图像的字符之间的空白空间中添加垂直辅助线。...

【技术保护点】
1.一种用于提高光学字符识别OCR系统的识别率的计算机实现的方法，包括：/n接收至少一个图像；/n从所述至少一个图像中提取所有垂直线；/n在字符区域处添加垂直线；/n由处理器设备从所述至少一个图像中提取所有水平线；/n创建从所述至少一个图像中去除所有所述垂直线和所述水平线的无线条图像；/n由所述处理器设备基于每一列中的行像素总数来确定所述无线条图像的垂直方向的边界；以及/n在所述无线条图像的字符之间的空白空间中添加垂直辅助线。/n

【技术特征摘要】
20190425 US 16/3942161.一种用于提高光学字符识别OCR系统的识别率的计算机实现的方法，包括：
接收至少一个图像；
从所述至少一个图像中提取所有垂直线；
在字符区域处添加垂直线；
由处理器设备从所述至少一个图像中提取所有水平线；
创建从所述至少一个图像中去除所有所述垂直线和所述水平线的无线条图像；
由所述处理器设备基于每一列中的行像素总数来确定所述无线条图像的垂直方向的边界；以及
在所述无线条图像的字符之间的空白空间中添加垂直辅助线。

2.根据权利要求1所述的方法，还包括：
添加水平辅助线。

3.根据权利要求1所述的方法，还包括：
将所述至少一个图像分成块；
确定所述垂直辅助线或所述水平辅助线是否覆写所述块；
如果所述垂直辅助线或所述水平辅助线覆写所述块，则跳过添加所述垂直辅助线或所述水平辅助线，以及
移位所述垂直辅助线和所述水平辅助线中的至少一者的位置，以使得所述垂直辅助线和所述水平辅助线中的所述至少一者不被覆写。

4.根据权利要求1所述的方法，还包括：
接收至少一个图像；
基于添加垂直辅助线，确定所述至少一个图像的至少一个变型；
对所述至少一个图像和所述至少一个图像的所述至少一个变型执行OCR；以及
确定所述至少一个图像和所述至少一个图像的所述至少一个变型的最高OCR率。

5.根据权利要求1所述的方法，还包括：
通过应用词法分析，从所述至少一个图像中去除噪声。

6.根据权利要求1所述的方法，还包括：
通过将两个单词转换成图像来测量所述两个单词之间的相似度；以及
叠加所述图像。

7.根据权利要求6所述的方法，还包括：
在叠加时考虑所述图像的深度。

8.一种用于提高光学字符识别OCR系统的识别率的计算机实现的方法，包括：
接收OCR输出的至少一个乱码单词；
在词法上分析所述至少一个乱码单词之后去除噪声；以及
基...

【专利技术属性】
技术研发人员：上条浩一，清水晶，酒井大，石井裕太，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人