光学字符识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:41335496 阅读:27 留言:0更新日期:2024-05-20 09:55
本发明专利技术涉及光学字符识别技术领域,提供一种光学字符识别方法、装置、电子设备及存储介质,方法包括对图像进行识别得到初始识别结果;执行循环过程直至满足预设条件;循环过程包括在初始识别结果中文本检测区域内的文本不是同一短语或同一短句的情况下,对文本拆分得到拆分识别结果;确定拆分识别结果中邻接检测区域对;将预设短语表与邻接区域对的文本进行匹配,得到语义得分;基于区域和邻接区域之间区域距离确定距离得分;基于字符串长度确定字符串合并得分;基于语义得分、距离得分和字符串合并得分确定合并指标,基于合并指标对邻接检测区域对合并得到目标邻接检测区域;基于目标邻接检测区域确定识别结果,提高识别结果的准确性。

【技术实现步骤摘要】

本专利技术涉及光学字符识别,尤其涉及一种光学字符识别方法、装置、电子设备及存储介质


技术介绍

1、ocr(optical character recognition,光学字符识别),是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程。ocr技术的应用已非常广泛,如证照识别、票据识别、车牌识别等。

2、当前ocr技术主要采用深度学习的方法,主要的技术路线大致可分为端到端的算法和两阶段算法两类。其中两阶段算法将ocr技术中的文字检测和识别分为两个步骤,依次完成。而端到端的算法则针对输入图片直接输出识别结果。

3、过去在大量的实际应用中,垂直领域为了获得好的ocr模型,往往需要对大量垂类图片做标注并进行训练。然而,很多场景下,想获取大量的垂类图片并进行标注是非常困难的。比如某些表格、票据的版式经常会因为工作需要发生变化,此时原本训练的模型很难快速适应新的版式得到比较良好的效果,从而降低了光学字符识别的识别准确率。


技术实现思路p>

1、本专利本文档来自技高网...

【技术保护点】

1.一种光学字符识别方法,其特征在于,包括:

2.根据权利要求1所述的光学字符识别方法,其特征在于,所述确定所述邻接检测区域对中各检测区域的字符串长度,并基于所述字符串长度,确定所述邻接检测区域对的字符串合并得分,包括:

3.根据权利要求1所述的光学字符识别方法,其特征在于,所述基于所述区域距离,确定所述邻接检测区域对的距离得分,包括:

4.根据权利要求1所述的光学字符识别方法,其特征在于,所述将所述预设短语表与所述邻接检测区域对的文本进行匹配,得到所述邻接检测区域对的语义得分,包括:

5.根据权利要求4所述的光学字符识别方法,其特征在于,...

【技术特征摘要】

1.一种光学字符识别方法,其特征在于,包括:

2.根据权利要求1所述的光学字符识别方法,其特征在于,所述确定所述邻接检测区域对中各检测区域的字符串长度,并基于所述字符串长度,确定所述邻接检测区域对的字符串合并得分,包括:

3.根据权利要求1所述的光学字符识别方法,其特征在于,所述基于所述区域距离,确定所述邻接检测区域对的距离得分,包括:

4.根据权利要求1所述的光学字符识别方法,其特征在于,所述将所述预设短语表与所述邻接检测区域对的文本进行匹配,得到所述邻接检测区域对的语义得分,包括:

5.根据权利要求4所述的光学字符识别方法,其特征在于,所述在所述预设短语表不包含所述合并文本的情况下,确定所述邻接检测区域对的语义得分为第四预设值,之后还包括:

【专利技术属性】
技术研发人员:王凌云宋丹丹郑玉玲梁通刘兆蓬王梓凝
申请(专利权)人:成方金融科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1