一种基于OCR识别结果的最长公共子串自动纠错方法及系统技术方案

技术编号:24093595 阅读:70 留言:0更新日期:2020-05-09 09:12
本发明专利技术提供一种基于OCR识别结果的最长公共子串自动纠错方法及系统,涉及图像光学字符识别领域,所述方法包括以下步骤:步骤1:OCR软件识别获取待测图像文件中的字符串;步骤2:对OCR软件识别获取的字符串进行预处理;步骤3:对预处理后的字符串进行字符纠错替换处理;步骤4:基于字符纠错替换处理后的字符串进行最长公共子串匹配计算处理,并输出正确结果。本发明专利技术通过将OCR软件识别输入的字符串进行自动纠错替换,然后将纠错替换的字符串与需要输出的目标字符串进行最长公共子串匹配计算,并输出正确的目标字符串。解决了在识别清晰度较低的图像文件时,图像文件识别输出成功率低的问题。

An automatic error correction method and system of the longest common substring based on OCR recognition results

【技术实现步骤摘要】
一种基于OCR识别结果的最长公共子串自动纠错方法及系统
本专利技术涉及图像光学字符识别领域,尤其涉及一种基于OCR识别结果的最长公共子串自动纠错方法及系统。
技术介绍
OCR软件,指利用OCR(OpticalCharacterRecognition,光学字符识别)技术,将图片、照片、电子传真等图像上的文字内容识别提取转换为可编辑文本的软件,通过扫描仪、照相机、电子传真机等设备获取并保存图像文件,然后通过OCR软件读取、分析图像文件并通过字符识别提取字符串。在对税票、合同、基金成交单和划款指令等各种文件在进行数字化管理时,需要OCR软件对文件固定区域图像内容进行自动识别、提取收付款账户和金额等信息,然而在利用OCR软件进行图像文件识别提取时,由于识别图像文件内容会出现模糊、错位等情况,OCR软件识别结果会随之出现错误。专利技术专利《基于多种OCR方案组合校验以准确提取数字的方法》(公开号:CN101009747A)采用多种不同的OCR软件识别传真图片,以识别获取其中的传真号码,然后根据自识别算法的特征对识别出的数字进行纠错,最后对本文档来自技高网...

【技术保护点】
1.一种基于OCR识别结果的最长公共子串自动纠错方法,其特征在于,所述方法包括以下步骤:/n步骤1:OCR软件识别获取待测图像文件中的字符串;/n步骤2:对OCR软件识别获取的字符串进行预处理;/n步骤3:对预处理后的字符串进行字符纠错替换处理;/n步骤4:基于字符纠错替换处理后的字符串进行最长公共子串匹配计算处理,并输出正确结果。/n

【技术特征摘要】
1.一种基于OCR识别结果的最长公共子串自动纠错方法,其特征在于,所述方法包括以下步骤:
步骤1:OCR软件识别获取待测图像文件中的字符串;
步骤2:对OCR软件识别获取的字符串进行预处理;
步骤3:对预处理后的字符串进行字符纠错替换处理;
步骤4:基于字符纠错替换处理后的字符串进行最长公共子串匹配计算处理,并输出正确结果。


2.根据权利要求1所述的基于OCR识别结果的最长公共子串自动纠错方法,其特征在于,所述预处理具体步骤如下:
步骤2.1:根据识别获取的字符串的字段特性,预先配置需要去除的非法字符;
步骤2.2:去除OCR软件识别获取的字符串中的非法字符;
步骤2.3:将去除非法字符处理后的字符串中的全角符号统一替换为半角符号,并将字符串作为中间结果存储。


3.根据权利要求1所述的基于OCR识别结果的最长公共子串自动纠错方法,其特征在于:所述字符串字符纠错替换处理具体步骤如下:
步骤3.1:对预处理后的字符串进行全局纠错替换处理;
步骤3.2:对全局纠错替换后的字符串进行通配符纠错替换处理;
步骤3.3:对通配符纠错替换处理后的字符串进行特殊纠错替换处理。


4.根据权利要求1所述的基于OCR识别结果的最长公共子串自动纠错方法,其特征在于:所述最长公共子串匹配计算处理具体步骤如下:
步骤4.1:计算字符纠错替换处理后的字符串与预先存储的目标集合中的每个字符串的最长公共子串;

【专利技术属性】
技术研发人员:叶瑞叶凯迪陆爱亮
申请(专利权)人:上海迈弦网络科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1