文本识别方法、装置、系统和非易失性存储介质制造方法及图纸

技术编号:31499680 阅读:69 留言:0更新日期:2021-12-22 23:07
本发明专利技术公开了一种文本识别方法、装置、系统和非易失性存储介质。其中,该方法包括:获取待检测图像数据,其中,待检测图像数据中包括文字信息;对待检测图像数据中的文字进行定位识别,得到多个文本块以及多个文本块的空间位置信息;基于空间位置信息,确定多个文本块中至少两个相邻文本块之间的关联关系;确定关联关系满足预设条件,将至少两个相邻文本块组成一个分词;输出分词。本发明专利技术解决了由于文字定位算法的文本框语义单元不固定,文字难以成行、错误成行等所导致的对文本进行识别的效率低的技术问题。低的技术问题。低的技术问题。

【技术实现步骤摘要】
文本识别方法、装置、系统和非易失性存储介质


[0001]本专利技术涉及文本识别领域,具体而言,涉及一种文本识别方法、装置、系统和非易失性存储介质。

技术介绍

[0002]目前,在进行文本识别时,可以采用光学字符识别(Optical Character Recognition,简称为OCR)定位模型实现文字定位算法。
[0003]但是,由于上述模型不稳定、图像质量较低、处理对象随机等,会导致模型给出的语义单元非常不固定,比如,同样的字符,有的时候会在一个文本框内,有的时候却会分为多个文本框。
[0004]在同类图片上也有很大概率会出现类似位置文本块分布完全不同,比如,有的合为一块,有的却会拆分为多块,从而使得下游的算法受困于文本块分布。同时,OCR文字定位模型给定的文本块横行、竖行、斜行常常根据文字距离给定或者与标注人员的标注理解相关,在距离完全一致的情况下模型也难以判断如何成行,从而存在由于文字定位算法的文本框语义单元不固定,文字难以成行、错误成行等所导致的对文本进行识别的效率低的技术问题。
[0005]针对上述的问题,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:获取待检测图像数据,其中,所述待检测图像数据中包括文字信息;对所述待检测图像数据中的文字进行定位识别,得到多个文本块以及多个文本块的空间位置信息;基于所述空间位置信息,确定所述多个文本块中至少两个相邻文本块之间的关联关系;确定所述关联关系满足预设条件,将所述至少两个相邻文本块组成一个分词;输出所述分词。2.根据权利要求1所述的方法,其特征在于,确定所述关联关系满足预设条件,将所述至少两个相邻文本块组成一个分词,包括:基于所述关联关系确定包含所述多个文本块中的全部文本块的路径,得到多条路径,其中,每条路径中具有所述关联关系的两个相邻文本块组成一个分词;确定所述多条路径中的目标路径,在所述至少两个相邻文本组成的分词属于所述目标路径中的分词时,确定所述关联关系满足预设条件,并将所述至少两个相邻文本块组成一个分词。3.根据权利要求2所述的方法,其特征在于,确定所述多条路径中的目标路径之前,所述方法还包括:对所述多条路径按照预设规则进行筛选,得到指定数量的路径;从所述指定数量的路径中确定所述目标路径。4.根据权利要求3所述的方法,其特征在于,所述指定数量的路径中各个路径的节点是不重合的,其中,每个节点对应一个文本块。5.根据权利要求3所述的方法,其特征在于,对所述多条路径按照预设规则进行筛选,得到指定数量的路径,包括:确定所述多条路径中的各个分词;确定所述各个分词与预设字典中的分词的语义相似度;确定所述各个分词中所述语义相似度小于预设阈值的分词;将确定的分词中各个文字之间的关联关系删除,得到所述指定数量的路径。6.根据权利要求3所述的方法,其特征在于,从所述指定数量的路径中确定所述目标路径,包括:对于所述指定数量的路径中的每条路径,统计所述每条路径中与预设字典中的分词匹配的各个分词的出现次数;依据所述出现次数和所述预设字典中所有分词的出现次数,确定所述每条路径中与预设字典中的分词匹配的各个分词的出现概率;基于所述各个分词的出现概率确定每条路径的路径概率,并将所述指定数量的路径中路径概率最大的路径作为所述目标路径,其中,所述路径概率为每条路径中各个分词的出现概率之和。7.根据权利要求1所述的方法,其特征在于,基于所述空间位置信息,确定所述多个文本块中至少两个相邻文本块之间的关联关系,包括:对于所述多个文本块中的任意一个文本块,建立所述文本块与位于所述文本块不同方
向的相邻文本块之间的连接关系,其中,具有连接关系的两个相邻文本块具有所述关联关系。8.根据权利要求1至7中任意一项所述的方法,其特征...

【专利技术属性】
技术研发人员:罗楚威高飞宇张诗禹郑琪王永攀
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1