识别图像中文本的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32663982 阅读:10 留言:0更新日期:2022-03-17 11:15
本公开提供了一种识别图像中文本的方法、装置、电子设备及存储介质,涉及人工智能领域,尤其涉及文本识别技术领域。具体实现方案为:对输入图像进行文本分割处理,得到图像分割结果,其中,输入图像中的显示内容包括:待识别文字,图像分割结果包括:待识别文字对应的多个文字字段区域的分割掩膜图;对图像分割结果进行文本分类处理,将多个文字字段区域划分为第一部分文字字段区域和第二部分文字字段区域,其中,第一部分文字字段区域的文字扭曲度大于第二部分文字字段区域的文字扭曲度;对第一部分文字字段区域进行文本矫正处理,得到矫正结果;对矫正结果和第二部分文字字段区域进行文本识别处理,得到识别结果。得到识别结果。得到识别结果。

【技术实现步骤摘要】
识别图像中文本的方法、装置、电子设备及存储介质


[0001]本公开涉及人工智能领域,进一步涉及文本识别
,尤其涉及一种识别图像中文本的方法、装置、电子设备及存储介质。

技术介绍

[0002]光学字符识别(Optical Character Recognition,OCR)技术是指电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。在诸如内容审核,拍照翻译等任务上,引入OCR技术,能够有效提高审核效率,方便人们的生活学习。
[0003]相关方案中的文字识别技术仅仅可以对图像中的水平文本进行准确识别,而对于其中弯曲文本的识别效果较差,从而导致最终整体的识别结果不准确。

技术实现思路

[0004]本公开提供了一种识别图像中文本的方法、装置、电子设备及存储介质,以至少解决相关技术中对于图像中文本的识别效率低下的技术问题。
[0005]根据本公开的一方面,提供了一种识别图像中文本的方法,包括:对输入图像进行文本分割处理,得到图像分割结果,其中,输入图像中的显示内容包括:待识别文字,图像分割结果包括:待识别文字对应的多个文字字段区域的分割掩膜图;对图像分割结果进行文本分类处理,将多个文字字段区域划分为第一部分文字字段区域和第二部分文字字段区域,其中,第一部分文字字段区域的文字扭曲度大于第二部分文字字段区域的文字扭曲度;对第一部分文字字段区域进行文本矫正处理,得到矫正结果;对矫正结果和第二部分文字字段区域进行文本识别处理,得到识别结果。<br/>[0006]根据本公开的又一方面,提供了一种识别图像中文本的装置,包括:分割模块,用于对输入图像进行文本分割处理,得到图像分割结果,其中,输入图像中的显示内容包括:待识别文字,图像分割结果包括:待识别文字对应的多个文字字段区域的分割掩膜图;分类模块,用于对图像分割结果进行文本分类处理,将多个文字字段区域划分为第一部分文字字段区域和第二部分文字字段区域,其中,第一部分文字字段区域的文字扭曲度大于第二部分文字字段区域的文字扭曲度;矫正模块,用于对第一部分文字字段区域进行文本矫正处理,得到矫正结果;识别模块,用于对矫正结果和第二部分文字字段区域进行文本识别处理,得到识别结果。
[0007]根据本公开的又一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提出的识别图像中文本的方法。
[0008]根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提出的识别图像中文本的方法。
[0009]根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行本公开提出的识别图像中文本的方法。
[0010]在本公开中,通过对输入图像进行文本分割处理,得到图像分割结果,输入图像中的显示内容包括:待识别文字,图像分割结果包括:待识别文字对应的多个文字字段区域的分割掩膜图;对图像分割结果进行文本分类处理,将多个文字字段区域划分为第一部分文字字段区域和第二部分文字字段区域,第一部分文字字段区域的文字扭曲度大于第二部分文字字段区域的文字扭曲度;对第一部分文字字段区域进行文本矫正处理,得到矫正结果;对矫正结果和第二部分文字字段区域进行文本识别处理,得到识别结果,达到了准确识别图像中不同文字字段区域中的文本的目的,实现了提高对于图像中文本的识别速度和准确率的效果,从而解决了相关技术中对于图像中文本的识别效率低下的技术问题。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1是根据本公开实施例的一种用于实现识别图像中文本的方法的计算机终端(或移动设备)的硬件结构框图;
[0014]图2是根据本公开第一实施例的一种识别图像中文本的方法流程图;
[0015]图3是根据本公开第二实施例的一种识别图像中文本的方法流程图;
[0016]图4是根据本公开第三实施例的一种识别图像中文本的方法流程图;
[0017]图5是根据本公开第四实施例的一种识别图像中文本的方法流程图;
[0018]图6是根据本公开第五实施例的一种识别图像中文本的方法流程图;
[0019]图7是根据本公开第六实施例的一种识别图像中文本的方法流程图;
[0020]图8是根据本公开实施例的一种识别图像中文本的装置的结构框图。
具体实施方式
[0021]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0022]需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0023]文字识别处理过程一般包括文字区域检测任务和文字图像内容识别任务。其中,文字区域检测任务是在整张图像上定位到文字区域,并将文字部分从整张图像中提取出
来,再对提取到的文字部分执行文字图像内容识别任务,最终获取文字识别结果。
[0024]除了文字区域定位的准确程度以外,文字图像质量也是影响文字识别准确率的一大因素,文字图像质量可以从三个方面来衡量:清晰度、倾斜度、和扭曲程度。
[0025]其中,一般可以通过增加模糊数据增强来提升清晰度效果,通过引入方向判断等手段来旋转文字图像以获得理想的倾斜度。传统文字识别的方法是把文字区域当做一个序列,用循环神经网络(Recurrrent Neural Network,RNN)从左到右扫描文字,得到文字识别结果。目前,主流的文字识别方法是结合卷积循环神经网络(Convolutional Recurrrent Neural Network,CRNN)和时序分类算法(Connectionist Temporal Classification,CTC),但是,这种识别方法仅仅能够对水平文本进行准确识别,对于扭曲程度较大的弯曲文本的识别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种识别图像中文本的方法,包括:对输入图像进行文本分割处理,得到图像分割结果,其中,所述输入图像中的显示内容包括:待识别文字,所述图像分割结果包括:所述待识别文字对应的多个文字字段区域的分割掩膜图;对所述图像分割结果进行文本分类处理,将所述多个文字字段区域划分为第一部分文字字段区域和第二部分文字字段区域,其中,所述第一部分文字字段区域的文字扭曲度大于所述第二部分文字字段区域的文字扭曲度;对所述第一部分文字字段区域进行文本矫正处理,得到矫正结果;对所述矫正结果和所述第二部分文字字段区域进行文本识别处理,得到识别结果。2.根据权利要求1所述的方法,其中,对所述第一部分文字字段区域进行文本矫正处理,得到所述矫正结果包括:对所述第一部分文字字段区域进行关键点预测处理,得到多个目标关键点;响应于所述多个目标关键点满足预设条件,对所述多个目标关键点和所述第一部分文字字段区域对应的原图进行文本变换处理,得到所述矫正结果。3.根据权利要求2所述的方法,其中,对所述第一部分文字字段区域进行关键点预测处理,得到所述多个目标关键点包括:利用目标神经网络模型对所述第一部分文字字段区域对应的分割掩膜图进行分析,确定所述多个目标关键点,其中,所述目标神经网络模型使用多组数据通过监督训练得到,所述多组数据中的每组数据均包括:扭曲文字字段区域的分割掩膜图以及对应的多个第一关键点。4.根据权利要求3所述的方法,其中,所述方法还包括:对所述扭曲文字字段区域的分割掩膜图进行增强处理,得到增强掩膜图;利用所述目标神经网络模型对所述增强掩膜图进行分析,确定多个第二关键点;对所述多个第一关键点与所述多个第二关键点进行一致性学习,得到学习结果;采用所述学习结果对所述目标神经网络模型进行优化。5.根据权利要求2所述的方法,其中,所述预设条件包括:基于所述多个目标关键点确定的区域与所述第一部分文字字段区域之间的交并比大于第一预设阈值。6.根据权利要求2所述的方法,其中,所述方法还包括:响应于所述多个目标关键点未满足所述预设条件,对所述输入图像进行增强处理,得到增强图像;基于所述增强图像重新预测所述多个目标关键点,直至所述多个目标关键点满足所述预设条件。7.根据权利要求2所述的方法,其中,所述方法还包括:响应于所述多个目标关键点未满足所述预设条件,对所述输入图像进行增强处理,得到增强图像;基于所述增强图像重新预测所述多个目标关键点,直至重新预测次数超过第二预设阈值时,将交并比最大的一组关键点确定为多个初始关键点;按照所述增强图像的增强处理方式,对所述多个初始关键点进行调整,得到所述多个
目标关键点。8.一种识别图像中文本的装置,包括:分割模块,用于对输入图像进行文本分割处理,得到图像分割结果,其中,所述输入图像中的显示内容包括:待识别文字,所述图像分割结果包括:所述待识别文字对应的多个文字字段区域的分割掩膜图;分类模块,用于对所述图像分割结果进行文本分类处理,将所述多个文字...

【专利技术属性】
技术研发人员:范森王晓燕吕鹏原章成全姚锟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1