一种基于文字位置信息的OCR优化方法及系统技术方案

技术编号:27240295 阅读:27 留言:0更新日期:2021-02-04 12:11
本发明专利技术公开了一种基于文字位置信息的OCR优化方法及系统,包括:设定需要提取的约束信息项及提取范围;对待识别图像进行预处理,获取所述图像中的文字及位置信息;计算所有文字信息的平均行间距,确定当前文字与下一行文字之间的间距,基于所述间距与平均行间距的大小,判断当前文字与下一行文字是否需要合并;对上述提取到的信息项文字数据进行格式化输出。本发明专利技术方法在保证识别结果准确率的前提下,只需要对图片扫描一次就可以实现对各类文字的高精度提取,可显著降低OCR识别技术实现的算力硬件成本和时间成本。的算力硬件成本和时间成本。的算力硬件成本和时间成本。

【技术实现步骤摘要】
一种基于文字位置信息的OCR优化方法及系统


[0001]本专利技术涉及图像文字识别
,尤其涉及一种基于文字位置信息的OCR优化方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;
[0004]随着各行业信息化程度的提高以及计算机图像处理技术以及机器学习等人工智能技术的发展,OCR文字识别技术也迎来的飞跃式进步,识别效率和场景也越来越高效和丰富,由最开始的电子书籍等无格式的简单场景OCR识别发展到现在各行业中普遍存在的营业执照、身份证、驾驶证、出生证等有格式的复杂场景OCR识别。但是目前复杂场景下的所有OCR解决方案都对待识别的照片的拍摄清晰度、拍摄角度及范围等提出了较高的要求,有的解决方案通过设置人性化的拍摄范围辅助框,帮助用户拍摄到高标准的图片,以提高识别准确度。
[0005]目前复杂场景OCR识别解决方案大都是通过证件模板训练得到需要识别的证件照的分类及各信息项的区域信息,然后根据区域信息对图片进行再切割,对切割后的小区域图片再进行灰度化、二值化、噪声去除、倾斜纠正等一系列图像预处理后再进行文字识别,切割后的图片信息量小,识别成功率高,但是上述方案在技术上存在以下不足之处:
[0006](1)证件模板中信息项坐标区域信息的获取需要大量的样本训练才会更加准确,技术成本高。
[0007](2)前述训练得出的信息项坐标区域的准确性会直接决定后续最终识别结果的准确性,因为一旦坐标区域信息不准确,那么分切出的图片中的信息就会残缺,识别出的结果也就不正确了。因此为了保证模型训练的准确性,该类技术方案都对训练样本的清晰度、拍摄角度等提出很高的技术要求。
[0008](3)该类解决方案不但对训练样本有高的技术要求,而且要求生产环境中用户提供的待识别照片也必须满足较高的技术指标才可以,因此该类解决方案一般会在用户提交图片时就要进行干预,或者给出拍摄参考提示,用户体验差。
[0009](4)该类解决方案需要对原始图片进行多次数据扫描(分切),时间成本高。

技术实现思路

[0010]为了解决上述问题,本专利技术提出了一种基于文字位置信息的OCR优化方法及系统,在保证识别结果准确率的前提下,可显著降低OCR识别技术实现的时间和技术成本,用户体验明显提升。
[0011]在一些实施方式中,采用如下技术方案:
[0012]一种基于文字位置信息的OCR优化方法,包括:
[0013]设定需要提取的约束信息项及提取范围;
[0014]对待识别图像进行预处理,获取所述图像中的文字及位置信息;
[0015]计算所有文字信息的平均行间距,确定当前文字与下一行文字之间的间距,基于所述间距与平均行间距的大小,判断当前文字与下一行文字是否需要合并;
[0016]对上述提取到的信息项文字数据进行格式化输出。
[0017]在一些实施方式中,采用如下技术方案:
[0018]一种基于文字位置信息的OCR优化系统,包括:
[0019]模板设计模块,用于设定需要提取的约束信息项及提取范围;
[0020]文字位置信息识别模块,用于对待识别图像进行预处理,获取所述图像中的文字及位置信息;
[0021]优化处理模块,用于计算所有文字信息的平均行间距,确定当前文字与下一行文字之间的间距,基于所述间距与平均行间距的大小,判断当前文字与下一行文字是否需要合并;
[0022]结构化输出模块,用于对上述提取到的信息项文字数据进行格式化输出。
[0023]在一些实施方式中,采用如下技术方案:
[0024]一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行上述的基于文字位置信息的OCR优化方法。
[0025]在一些实施方式中,采用如下技术方案:
[0026]一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行上述的基于文字位置信息的OCR优化方法。
[0027]与现有技术相比,本专利技术的有益效果是:
[0028](1)本专利技术方法在保证识别结果准确率的前提下,只需要对图片扫描一次就可以实现对各类文字的高精度提取,可显著降低OCR技术实现的算力硬件成本和时间成本。
[0029](2)本专利技术方法由于不需要在证件模板中提供信息项坐标位置区域信息,因此可显著降低对用户的待识别照片或拍照过程的技术要求,明显提升用户体验,并且通过对OCR模板的调整可实现对营业执照、身份证、名片、驾照、房产证等多种证件图片的OCR高效提取,具有非常灵活的扩展性。
附图说明
[0030]图1为本专利技术实施例中基于文字位置信息的OCR优化方法的流程图;
[0031]图2为本专利技术实施例的提取结果与现有技术方法识别结果的对比图。
具体实施方式
[0032]应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本专利技术使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。
[0033]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0034]实施例一
[0035]在一个或多个实施方式中,公开了一种基于文字位置信息的OCR优化方法,以提取营业执照中的文字信息为例进行说明,参照图1,具体包括以下过程:
[0036](1)设定需要提取的约束信息项及提取范围;
[0037]具体地,约束信息项及提取范围指的是需要提取的营业执照中的哪些文字信息,但是并不需要提取这些文字的位置信息;可以降低对用户的待识别照片或拍照过程的技术要求。例如,经过分析确定公司营业执照需要提取的信息项有以下几个:
[0038]√社会信用代码;
[0039]√经营范围;
[0040]√法人;
[0041]√成立日期;
[0042]√注册资本;
[0043]√证件编号;
[0044]√地址;
[0045]√单位名称;
[0046]√类型;
[0047]√有效期
[0048](2)对待识别图像进行预处理,获取所述图像中的文字及位置信息;
[0049]具体地,对图像进行预处理的过程包括:灰度化、二值化、噪声去除、倾斜纠正等处理;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文字位置信息的OCR优化方法,其特征在于,包括:设定需要提取的约束信息项及提取范围;对待识别图像进行预处理,获取所述图像中的文字及位置信息;计算所有文字信息的平均行间距,确定当前文字与下一行文字之间的间距,基于所述间距与平均行间距的大小,判断当前文字与下一行文字是否需要合并;对上述提取到的信息项文字数据进行格式化输出。2.如权利要求1所述的一种基于文字位置信息的OCR优化方法,其特征在于,对待识别图像进行预处理,包括:对图像进行灰度化、二值化、噪声去除以及倾斜矫正的预处理操作。3.如权利要求1所述的一种基于文字位置信息的OCR优化方法,其特征在于,设定需要提取的约束信息项及提取范围,具体包括:需要提取的图像中的文字信息。4.如权利要求1所述的一种基于文字位置信息的OCR优化方法,其特征在于,通过临近连通区域搜索方法,逐行搜索出现在图片中的文字并记录坐标位置,截取文字所处区域,识别文字,得到图片所有文字及其坐标位置信息。5.如权利要求1所述的一种基于文字位置信息的OCR优化方法,其特征在于,计算所有文字信息的平均行间距,具体包括:遍历提取的图像中每一行文字的坐标,基于所述坐标值计算当前行与下一行的行间距;将所有行间距累加求和;基于累加值与行数的比值确定平均行间距。6.如权利要求1所述的一种基于文字位置信息的OCR优化方法,其...

【专利技术属性】
技术研发人员:张丽丽刘宏亮刘伟珊王菲
申请(专利权)人:山东国赢大数据产业有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1