文本识别方法、装置、电子设备以及存储介质制造方法及图纸

技术编号：36706665 阅读：21 留言：0更新日期：2023-03-01 09:29

本公开提供了文本识别方法、装置、电子设备、存储介质以及程序产品，涉及人工智能技术领域，尤其涉及深度学习、图像处理、计算机视觉技术领域，可应用于OCR等场景。具体实现方案为：在确定待识别图像中的文本为竖排文本的情况下，确定待识别图像的背景复杂度；确定与背景复杂度相匹配的目标识别模式；按照目标识别模式，确定待识别图像中的目标字符区域；以及基于目标字符区域，对待识别图像进行文本识别，得到识别结果。得到识别结果。得到识别结果。

全部详细技术资料下载

【技术实现步骤摘要】
文本识别方法、装置、电子设备以及存储介质

[0001]本公开涉及人工智能
，尤其涉及深度学习、图像处理、计算机视觉
，可应用于OCR等场景。尤其涉及文本识别方法、装置、电子设备、存储介质以及程序产品。

技术介绍

[0002]OCR(Optical Character Recognition，光学字符识别)，可以是指利用电子设备，例如扫描仪或数码相机，采集具有文本内容的待处理图像。并利用文本识别方法，将待处理图像中的文本内容进行识别并转换为计算机可以处理的语言的技术。OCR是自动识别技术研究和应用领域中的一个重要方面。

技术实现思路

[0003]本公开提供了一种文本识别方法、装置、电子设备、存储介质以及程序产品。
[0004]根据本公开的一方面，提供了一种文本识别方法，包括：在确定待识别图像中的文本为竖排文本的情况下，确定上述待识别图像的背景复杂度；确定与上述背景复杂度相匹配的目标识别模式；按照上述目标识别模式，确定上述待识别图像中的目标字符区域；以及基于上述目标字符区域，对上述待识别图像进行文本识别，得到识别结果。
[0005]根据本公开的另一方面，提供了一种文本识别装置，包括：复杂度确定模块，用于在确定待识别图像中的文本为竖排文本的情况下，确定上述待识别图像的背景复杂度；模式确定模块，用于确定与上述背景复杂度相匹配的目标识别模式；处理模块，用于按照上述目标识别模式，确定上述待识别图像中的目标字符区域；以及识别模块，用于基于上述目标字符区域，对上述待识别图像进行文本识别，得...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法，包括：在确定待识别图像中的文本为竖排文本的情况下，确定所述待识别图像的背景复杂度；确定与所述背景复杂度相匹配的目标识别模式；按照所述目标识别模式，确定所述待识别图像中的目标字符区域；以及基于所述目标字符区域，对所述待识别图像进行文本识别，得到识别结果。2.根据权利要求1所述的方法，其中，所述确定与所述背景复杂度相匹配的目标识别模式，包括：在确定所述背景复杂度大于或者等于预定背景复杂度阈值的情况下，确定所述目标识别模式为解码识别模式；以及在确定所述背景复杂度小于所述预定背景复杂度阈值的情况下，确定所述目标识别模式为二值化识别模式。3.根据权利要求2所述的方法，其中，所述目标识别模式包括所述解码识别模式；所述按照所述目标识别模式，确定所述待识别图像中的目标字符区域，包括：对所述待识别图像进行特征提取，得到特征图序列，其中，所述特征图序列包括多个特征图，每个所述特征图与所述待识别图像中的一个子图像相对应，所述子图像为预先从所述待识别图像中划分的图像；基于所述特征图序列，得到关于字符类别的概率矩阵；基于所述概率矩阵，得到字符索引序列，其中，所述字符索引序列包括多个字符索引标签，所述字符索引标签为用于表征字符类别的标签；以及基于所述字符索引序列，确定所述待识别图像中的目标字符区域。4.根据权利要求3所述的方法，其中，所述基于所述字符索引序列，确定所述待识别图像中的目标字符区域，包括：从所述字符索引序列中确定目标字符索引标签；确定所述目标字符索引标签在所述字符索引序列中的排列位置信息；基于所述排列位置信息，确定所述目标字符区域的中心位置信息；以及基于所述目标字符索引标签的数量、所述待识别图像的尺寸和所述中心位置信息，确定所述待识别图像中的所述目标字符区域。5.根据权利要求2所述的方法，其中，所述目标识别模式包括所述二值化识别模式；所述按照所述目标识别模式，确定所述待识别图像中的目标字符区域，包括：对所述待识别图像进行二值化处理，得到二值化图像；对所述二值化图像进行水平投影，得到投影图；以及基于所述投影图，确定所述待识别图像中的目标字符区域。6.根据权利要求5所述的方法，其中，所述基于所述投影图，确定所述待识别图像中的目标字符区域，包括：基于所述投影图，确定多个连通域；确定相邻两个所述连通域之间的间隔距离，得到多个间隔距离；以及基于所述多个间距距离，从所述多个连通域中确定所述目标字符区域。7.根据权利要求1所述的方法，其中，所述确定所述待识别图像的背景复杂度，包括：
对所述待识别图像进行颜色聚类处理，得到所述待识别图像的颜色类别结果；以及基于所述颜色类别结果，确定所述背景复杂度。8.根据权利要求1所述的方法，其中，所述基于所述目标字符区域，对所述待识别图像进行文本识别，得到识别结果，包括：基于所述目标字符区域，对所述待识别图像进行切分，得到字符图像；基于所述字符图像，生成横向文本图像；以及对所述横向文本图像进行文本识别，得到识别结果。9.根据权利要求1所述的方法，还包括：对所述待识别图像进行文本检测，确定所述待识别图像中的每个字符和与所述字符相邻的字符之间的间距，其中，所述间距包括在竖直方向上的第一间距和在水平方向上的第二间距；以及基于所述第一间距和所述第二间距，确定所述待识别图像中的文本的排布类型，其中，所述排布类型包括竖排类型和横排类型。10.一种文本识别装置，包括：复杂度确定模块，用于在确定待识别图像中的文本为竖排文本的情况下，确定所述待识别图像的背景复杂度；模式确定模块，用于确定与所述背景复杂度相匹配的目标识别模式；处理模块，用于按照所述目标识别模式，确定所述待识别图像中的目标字符区域；以及识别模块，用于基于所述目标字符区域，对所述待识别图像进行文本识别，得到识别结果。11.根据权利要求10所述的装置，其中，...

【专利技术属性】
技术研发人员：常战国，吕一，刘亚萍，赵鑫，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人