一种OCR识别准确率提升方法、系统、介质和设备技术方案

技术编号:34617844 阅读:18 留言:0更新日期:2022-08-20 09:24
本发明专利技术涉及一种OCR识别准确率提升方法,主要针对具有表格结构的文本,如各类票据。所述方法包括:预识别步骤:输入待OCR识别的图片,图片具有不规则无框表格型文本,识别文本的内容及文本所在文本框的位置;倾斜角度计算步骤:基于文本框的位置获取长边最长的最长文本框所在位置,判断文本的方向,并计算最长文本框的短边与垂直方向的夹角为第一倾斜角度α;旋转倾斜步骤:基于第一倾斜角度α旋转图片后,再顺时针旋转图片第二倾斜角度β;最终识别步骤:对完成旋转的图片进行文本识别,输出图片识别结果。本发明专利技术还涉及OCR识别准确率提升系统、介质和设备。介质和设备。介质和设备。

【技术实现步骤摘要】
一种OCR识别准确率提升方法、系统、介质和设备


[0001]本专利技术涉及图片识别
,尤其涉及一种OCR识别准确率提升方法、系统、介质和设备。

技术介绍

[0002]不规则无框表格文本的图片是指没有表格线但其内容可以用表格格式解读的文本。不规则是指表格的行、列长短不一,每行的列数不同或者每列的行数不同。生活中很多票据都可以归类为不规则无框表格文本,比如超市购物小票、出租车发票等等。这些票据上没有表格线,但实际上可以按照表格格式来理解文本上的信息。比如一个出租车发票上的文本区域如图1所示。
[0003]这种无框的表格样式对于人眼来说很好理解,每一行分别是字段名和字段值,但是OCR系统只能将其识别为一段一段的文本,并不能将其转换成表格。举个例子,OCR系统可以识别某一行文字中存在“总量”,“10吨”这两段文本,但是OCR系统不能理解“总量”和“10吨”之间的逻辑关系。如果照片倾斜,使得“总量”和“10吨”不在同一行,那么输出的结果就失去了可读性。
[0004]单据的拍摄角度直接决定了OCR识别结果的可用性,但是现实中需要识别的照片来自于不同的机器、不同的拍摄人,所以拍摄角度很难统一,如图2所示。
[0005]为解决现有技术中存在的问题,亟需研发一种OCR识别准确率提升方法用以解决拍摄角度不同带来的表格文本OCR结果中字段名和字段值无法对应的问题。

技术实现思路

[0006]本专利技术所要解决的技术问题是针对现有技术的不足,提供一种OCR识别准确率提升方法、系统、介质和设备。<br/>[0007]本专利技术解决上述技术问题的技术方案如下:一种OCR识别准确率提升方法,方法包括:
[0008]预识别步骤:输入待OCR识别的图片,图片具有不规则无框表格的文本,识别文本的内容及文本所在文本框的位置;
[0009]倾斜角度计算步骤:基于文本框的位置获取长边最长的最长文本框所在位置,判断文本的方向,并计算最长文本框的短边与垂直方向的夹角为第一倾斜角度α;
[0010]旋转倾斜步骤:基于第一倾斜角度α旋转图片后,再顺时针旋转图片第二倾斜角度β;
[0011]最终识别步骤:采用OCR对完成旋转的图片进行文本识别,输出图片识别结果。
[0012]优选的,上述图片步骤还包括:
[0013]阿拉伯数字识别步骤:使用阿拉伯数字OCR模块识别长边长度最长的阿拉伯数字文本框及阿拉伯数字。
[0014]优选的,上述倾斜角度计算步骤包括:
[0015]文字方向判断步骤:判断长边长度最长的阿拉伯数字文本框中的阿拉伯数字方向基于垂直方向为正置或倒置;
[0016]角度计算步骤:如果阿拉伯数字方向为正置,则图片旋转角度为360
°‑
α+β;如果阿拉伯数字方向为倒置,则图片旋转角度为180
°‑
α+β。
[0017]优选的,上述第二倾斜角度β的范围是3
°
~4
°

[0018]本专利技术还提供一种OCR识别准确率提升系统,采用如上OCR识别准确率提升方法,系统包括:
[0019]预识别模块:输入待OCR识别的图片,图片具有不规则无框表格的文本,识别文本的内容及文本所在文本框的位置;
[0020]倾斜角度计算模块:基于文本框的位置获取长边最长的最长文本框所在位置,判断文本的方向,并计算最长文本框的短边与垂直方向的夹角为第一倾斜角度α;
[0021]旋转倾斜模块:基于第一倾斜角度α旋转图片后,再顺时针旋转图片第二倾斜角度β;
[0022]最终识别模块:采用OCR对完成旋转的图片进行文本识别,输出图片识别结果。
[0023]优选的,上述预识别模块还包括:
[0024]阿拉伯数字识别模块:使用阿拉伯数字OCR模块识别长边长度最长的阿拉伯数字文本框及阿拉伯数字。
[0025]优选的,上述倾斜角度计算模块包括:
[0026]文字方向判断模块:判断长边长度最长的阿拉伯数字文本框中的阿拉伯数字方向基于垂直方向为正置或倒置;
[0027]角度计算模块:如果阿拉伯数字方向为正置,则图片旋转角度为360
°‑
α+β;如果阿拉伯数字方向为倒置,则图片旋转角度为180
°‑
α+β。
[0028]优选的,上述第二倾斜角度β的范围是3
°
~4
°

[0029]本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的OCR识别准确率提升方法的步骤。
[0030]本专利技术提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如上所述的OCR识别准确率提升方法的步骤。
[0031]本方法专利技术的有益效果是:
[0032]1)本专利技术方法更好地识别不规则无框表格文本的内容,本专利技术方法为传统OCR系统增加图片自动旋转功能。旋转图片的目的是提高字段名和字段值对应的准确率;
[0033]2)本专利技术方法利用阿拉伯数字文本识别简单不易出错的特点,以数字文本框为基准,结合框内文字是否倒置,设计了把图片文字转到特定角度的方法;
[0034]3)本专利技术方法针对两列的无框表格,为了提高字段和字段值准确对应的概率,实验得到应该把文字转动至顺时针倾斜3
°
~4
°

[0035]本专利技术附加的方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术实践了解到。
附图说明
[0036]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例或现有技术
描述中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0037]图1为具有不规则无框表格文本的图片示例;
[0038]图2为横向拍摄时文字识别错误并且字段名和字段值无法对应的示意图;
[0039]图3为本专利技术OCR识别准确率提升方法流程示意图;
[0040]图4为本专利技术具体实施例OCR识别准确率提升方法流程示意图;
[0041]图5为本专利技术具体实施例最终识别的文本框示意图;
[0042]图6A及图6B为本专利技术具体实施例图片识别旋转示意图;
[0043]图7为本专利技术OCR识别准确率提升系统示意图。
具体实施方式
[0044]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本专利技术保护的范围。
[0045]本专利技术旨在解决更好地识别不规则无框表格文本的内容,本技术方案本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种OCR识别准确率提升方法,其特征在于,所述方法包括:预识别步骤:输入待OCR识别的图片,所述图片具有不规则无框表格的文本,识别所述文本的内容及所述文本所在文本框的位置;倾斜角度计算步骤:基于所述文本框的位置获取长边最长的最长文本框所在位置,判断所述文本的方向,并计算所述最长文本框的短边与垂直方向的夹角为第一倾斜角度α;旋转倾斜步骤:基于所述第一倾斜角度α旋转所述图片后,再顺时针旋转所述图片第二倾斜角度β;最终识别步骤:采用OCR对完成旋转的所述图片进行文本识别,输出图片识别结果。2.根据权利要求1所述OCR识别准确率提升方法,其特征在于,预识别步骤还包括:阿拉伯数字识别步骤:使用阿拉伯数字OCR模块识别长边长度最长的阿拉伯数字文本框及阿拉伯数字。3.根据权利要求1所述OCR识别准确率提升方法,其特征在于,所述倾斜角度计算步骤包括:文字方向判断步骤:判断所述长边长度最长的阿拉伯数字文本框中的阿拉伯数字方向基于所述垂直方向为正置或倒置;角度计算步骤:如果所述阿拉伯数字方向为正置,则所述图片旋转角度为360
°‑
α+β;如果所述阿拉伯数字方向为倒置,则所述图片旋转角度为180
°‑
α+β。4.根据权利要求1所述OCR识别准确率提升方法,其特征在于,所述第二倾斜角度β的范围是3
°
~4
°
。5.一种OCR识别准确率提升系统,采用如权利要求1

4中任意一项所述OCR识别准确率提升方法,其特征在于,所述系统包括:预识别模块:输入待OCR识别的图片,所述图片具有不规则无框表格的文本,识别所述文本的内容及所述文本所在文...

【专利技术属性】
技术研发人员:刘嵘汪新禧
申请(专利权)人:北京快成科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1