识别图像中文本的方法、装置、电子设备及存储介质制造方法及图纸

技术编号：32663982 阅读：10 留言：0更新日期：2022-03-17 11:15

本公开提供了一种识别图像中文本的方法、装置、电子设备及存储介质，涉及人工智能领域，尤其涉及文本识别技术领域。具体实现方案为：对输入图像进行文本分割处理，得到图像分割结果，其中，输入图像中的显示内容包括：待识别文字，图像分割结果包括：待识别文字对应的多个文字字段区域的分割掩膜图；对图像分割结果进行文本分类处理，将多个文字字段区域划分为第一部分文字字段区域和第二部分文字字段区域，其中，第一部分文字字段区域的文字扭曲度大于第二部分文字字段区域的文字扭曲度；对第一部分文字字段区域进行文本矫正处理，得到矫正结果；对矫正结果和第二部分文字字段区域进行文本识别处理，得到识别结果。得到识别结果。得到识别结果。

全部详细技术资料下载

【技术实现步骤摘要】
识别图像中文本的方法、装置、电子设备及存储介质

[0001]本公开涉及人工智能领域，进一步涉及文本识别
，尤其涉及一种识别图像中文本的方法、装置、电子设备及存储介质。

技术介绍

[0002]光学字符识别(Optical Character Recognition，OCR)技术是指电子设备检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。在诸如内容审核，拍照翻译等任务上，引入OCR技术，能够有效提高审核效率，方便人们的生活学习。
[0003]相关方案中的文字识别技术仅仅可以对图像中的水平文本进行准确识别，而对于其中弯曲文本的识别效果较差，从而导致最终整体的识别结果不准确。

技术实现思路

[0004]本公开提供了一种识别图像中文本的方法、装置、电子设备及存储介质，以至少解决相关技术中对于图像中文本的识别效率低下的技术问题。
[0005]根据本公开的一方面，提供了一种识别图像中文本的方法，包括：对输入图像进行文本分割处理，得到图像分割结果，其中，输入图像中的显示内容包括：待识别文字，图像分割结果包括：待识别文字对应的多个文字字段区域的分割掩膜图；对图像分割结果进行文本分类处理，将多个文字字段区域划分为第一部分文字字段区域和第二部分文字字段区域，其中，第一部分文字字段区域的文字扭曲度大于第二部分文字字段区域的文字扭曲度；对第一部分文字字段区域进行文本矫正处理，得到矫正结果；对矫正结果和第二部分文字字段区域进行文本识别处理，得到识别结果。<...

【技术保护点】

【技术特征摘要】
1.一种识别图像中文本的方法，包括：对输入图像进行文本分割处理，得到图像分割结果，其中，所述输入图像中的显示内容包括：待识别文字，所述图像分割结果包括：所述待识别文字对应的多个文字字段区域的分割掩膜图；对所述图像分割结果进行文本分类处理，将所述多个文字字段区域划分为第一部分文字字段区域和第二部分文字字段区域，其中，所述第一部分文字字段区域的文字扭曲度大于所述第二部分文字字段区域的文字扭曲度；对所述第一部分文字字段区域进行文本矫正处理，得到矫正结果；对所述矫正结果和所述第二部分文字字段区域进行文本识别处理，得到识别结果。2.根据权利要求1所述的方法，其中，对所述第一部分文字字段区域进行文本矫正处理，得到所述矫正结果包括：对所述第一部分文字字段区域进行关键点预测处理，得到多个目标关键点；响应于所述多个目标关键点满足预设条件，对所述多个目标关键点和所述第一部分文字字段区域对应的原图进行文本变换处理，得到所述矫正结果。3.根据权利要求2所述的方法，其中，对所述第一部分文字字段区域进行关键点预测处理，得到所述多个目标关键点包括：利用目标神经网络模型对所述第一部分文字字段区域对应的分割掩膜图进行分析，确定所述多个目标关键点，其中，所述目标神经网络模型使用多组数据通过监督训练得到，所述多组数据中的每组数据均包括：扭曲文字字段区域的分割掩膜图以及对应的多个第一关键点。4.根据权利要求3所述的方法，其中，所述方法还包括：对所述扭曲文字字段区域的分割掩膜图进行增强处理，得到增强掩膜图；利用所述目标神经网络模型对所述增强掩膜图进行分析，确定多个第二关键点；对所述多个第一关键点与所述多个第二关键点进行一致性学习，得到学习结果；采用所述学习结果对所述目标神经网络模型进行优化。5.根据权利要求2所述的方法，其中，所述预设条件包括：基于所述多个目标关键点确定的区域与所述第一部分文字字段区域之间的交并比大于第一预设阈值。6.根据权利要求2所述的方法，其中，所述方法还包括：响应于所述多个目标关键点未满足所述预设条件，对所述输入图像进行增强处理，得到增强图像；基于所述增强图像重新预测所述多个目标关键点，直至所述多个目标关键点满足所述预设条件。7.根据权利要求2所述的方法，其中，所述方法还包括：响应于所述多个目标关键点未满足所述预设条件，对所述输入图像进行增强处理，得到增强图像；基于所述增强图像重新预测所述多个目标关键点，直至重新预测次数超过第二预设阈值时，将交并比最大的一组关键点确定为多个初始关键点；按照所述增强图像的增强处理方式，对所述多个初始关键点进行调整，得到所述多个
目标关键点。8.一种识别图像中文本的装置，包括：分割模块，用于对输入图像进行文本分割处理，得到图像分割结果，其中，所述输入图像中的显示内容包括：待识别文字，所述图像分割结果包括：所述待识别文字对应的多个文字字段区域的分割掩膜图；分类模块，用于对所述图像分割结果进行文本分类处理，将所述多个文字...

【专利技术属性】
技术研发人员：范森，王晓燕，吕鹏原，章成全，姚锟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人