【技术实现步骤摘要】
本专利技术涉及光学字符识别,尤其涉及一种光学字符识别方法、装置、电子设备及存储介质。
技术介绍
1、ocr(optical character recognition,光学字符识别),是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程。ocr技术的应用已非常广泛,如证照识别、票据识别、车牌识别等。
2、当前ocr技术主要采用深度学习的方法,主要的技术路线大致可分为端到端的算法和两阶段算法两类。其中两阶段算法将ocr技术中的文字检测和识别分为两个步骤,依次完成。而端到端的算法则针对输入图片直接输出识别结果。
3、过去在大量的实际应用中,垂直领域为了获得好的ocr模型,往往需要对大量垂类图片做标注并进行训练。然而,很多场景下,想获取大量的垂类图片并进行标注是非常困难的。比如某些表格、票据的版式经常会因为工作需要发生变化,此时原本训练的模型很难快速适应新的版式得到比较良好的效果,从而降低了光学字符识别的识别准确率。
技术实现思路
...【技术保护点】
1.一种光学字符识别方法,其特征在于,包括:
2.根据权利要求1所述的光学字符识别方法,其特征在于,所述确定所述邻接检测区域对中各检测区域的字符串长度,并基于所述字符串长度,确定所述邻接检测区域对的字符串合并得分,包括:
3.根据权利要求1所述的光学字符识别方法,其特征在于,所述基于所述区域距离,确定所述邻接检测区域对的距离得分,包括:
4.根据权利要求1所述的光学字符识别方法,其特征在于,所述将所述预设短语表与所述邻接检测区域对的文本进行匹配,得到所述邻接检测区域对的语义得分,包括:
5.根据权利要求4所述的光学字符识
...【技术特征摘要】
1.一种光学字符识别方法,其特征在于,包括:
2.根据权利要求1所述的光学字符识别方法,其特征在于,所述确定所述邻接检测区域对中各检测区域的字符串长度,并基于所述字符串长度,确定所述邻接检测区域对的字符串合并得分,包括:
3.根据权利要求1所述的光学字符识别方法,其特征在于,所述基于所述区域距离,确定所述邻接检测区域对的距离得分,包括:
4.根据权利要求1所述的光学字符识别方法,其特征在于,所述将所述预设短语表与所述邻接检测区域对的文本进行匹配,得到所述邻接检测区域对的语义得分,包括:
5.根据权利要求4所述的光学字符识别方法,其特征在于,所述在所述预设短语表不包含所述合并文本的情况下,确定所述邻接检测区域对的语义得分为第四预设值,之后还包括:
【专利技术属性】
技术研发人员:王凌云,宋丹丹,郑玉玲,梁通,刘兆蓬,王梓凝,
申请(专利权)人:成方金融科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。