一种OCR识别准确率提升方法、系统、介质和设备技术方案

技术编号：34617844 阅读：18 留言：0更新日期：2022-08-20 09:24

本发明专利技术涉及一种OCR识别准确率提升方法，主要针对具有表格结构的文本，如各类票据。所述方法包括：预识别步骤：输入待OCR识别的图片，图片具有不规则无框表格型文本，识别文本的内容及文本所在文本框的位置；倾斜角度计算步骤：基于文本框的位置获取长边最长的最长文本框所在位置，判断文本的方向，并计算最长文本框的短边与垂直方向的夹角为第一倾斜角度α；旋转倾斜步骤：基于第一倾斜角度α旋转图片后，再顺时针旋转图片第二倾斜角度β；最终识别步骤：对完成旋转的图片进行文本识别，输出图片识别结果。本发明专利技术还涉及OCR识别准确率提升系统、介质和设备。介质和设备。介质和设备。

全部详细技术资料下载

【技术实现步骤摘要】
一种OCR识别准确率提升方法、系统、介质和设备

[0001]本专利技术涉及图片识别
，尤其涉及一种OCR识别准确率提升方法、系统、介质和设备。

技术介绍

[0002]不规则无框表格文本的图片是指没有表格线但其内容可以用表格格式解读的文本。不规则是指表格的行、列长短不一，每行的列数不同或者每列的行数不同。生活中很多票据都可以归类为不规则无框表格文本，比如超市购物小票、出租车发票等等。这些票据上没有表格线，但实际上可以按照表格格式来理解文本上的信息。比如一个出租车发票上的文本区域如图1所示。
[0003]这种无框的表格样式对于人眼来说很好理解，每一行分别是字段名和字段值，但是OCR系统只能将其识别为一段一段的文本，并不能将其转换成表格。举个例子，OCR系统可以识别某一行文字中存在“总量”，“10吨”这两段文本，但是OCR系统不能理解“总量”和“10吨”之间的逻辑关系。如果照片倾斜，使得“总量”和“10吨”不在同一行，那么输出的结果就失去了可读性。
[0004]单据的拍摄角度直接决定了OCR识别结果的可用性，但是现实中需要识别的照片来自于不同的机器、不同的拍摄人，所以拍摄角度很难统一，如图2所示。
[0005]为解决现有技术中存在的问题，亟需研发一种OCR识别准确率提升方法用以解决拍摄角度不同带来的表格文本OCR结果中字段名和字段值无法对应的问题。

技术实现思路

[0006]本专利技术所要解决的技术问题是针对现有技术的不足，提供一种OCR识别准确率提升方法、系统、介质和设备。<...

【技术保护点】

【技术特征摘要】
1.一种OCR识别准确率提升方法，其特征在于，所述方法包括：预识别步骤：输入待OCR识别的图片，所述图片具有不规则无框表格的文本，识别所述文本的内容及所述文本所在文本框的位置；倾斜角度计算步骤：基于所述文本框的位置获取长边最长的最长文本框所在位置，判断所述文本的方向，并计算所述最长文本框的短边与垂直方向的夹角为第一倾斜角度α；旋转倾斜步骤：基于所述第一倾斜角度α旋转所述图片后，再顺时针旋转所述图片第二倾斜角度β；最终识别步骤：采用OCR对完成旋转的所述图片进行文本识别，输出图片识别结果。2.根据权利要求1所述OCR识别准确率提升方法，其特征在于，预识别步骤还包括：阿拉伯数字识别步骤：使用阿拉伯数字OCR模块识别长边长度最长的阿拉伯数字文本框及阿拉伯数字。3.根据权利要求1所述OCR识别准确率提升方法，其特征在于，所述倾斜角度计算步骤包括：文字方向判断步骤：判断所述长边长度最长的阿拉伯数字文本框中的阿拉伯数字方向基于所述垂直方向为正置或倒置；角度计算步骤：如果所述阿拉伯数字方向为正置，则所述图片旋转角度为360
°‑
α+β；如果所述阿拉伯数字方向为倒置，则所述图片旋转角度为180
°‑
α+β。4.根据权利要求1所述OCR识别准确率提升方法，其特征在于，所述第二倾斜角度β的范围是3
°
～4
°
。5.一种OCR识别准确率提升系统，采用如权利要求1
‑
4中任意一项所述OCR识别准确率提升方法，其特征在于，所述系统包括：预识别模块：输入待OCR识别的图片，所述图片具有不规则无框表格的文本，识别所述文本的内容及所述文本所在文...

【专利技术属性】
技术研发人员：刘嵘，汪新禧，
申请(专利权)人：北京快成科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人