一种文本识别方法、装置、设备及存储介质制造方法及图纸

技术编号：33133132 阅读：24 留言：0更新日期：2022-04-17 00:54

本公开提供了一种文本识别方法、装置、设备及存储介质，涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域，可应用于OCR等场景。具体实现方案为：获得待识别文本图像的第一特征图；针对每一目标特征单元，基于该目标特征单元中的各个特征值，对该目标特征单元中的每一特征值进行特征增强处理，其中，目标特征单元为：第一特征图中沿特征增强方向的特征单元；基于增强处理后的第一特征图，对待识别文本图像进行文本识别。应用本公开实施例提供的文本识别方案，能够实现文本识别。能够实现文本识别。能够实现文本识别。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本识别方法、装置、设备及存储介质

[0001]本公开涉及人工智能
，具体为深度学习、计算机视觉
，可应用于OCR(Optical Character Recognition，光学字符识别)等场景。

技术介绍

[0002]在教育、医疗、金融等诸多领域涉及到的图像中存在文本，为了准确的基于上述图像进行信息处理，需要对上述图像进行文本识别，然后基于文本识别结果进行信息处理。

技术实现思路

[0003]本公开提供了一种用于文本识别的方法、装置、设备以及存储介质。
[0004]根据本公开的一方面，提供了文本识别方法，包括：
[0005]获得待识别文本图像的第一特征图；
[0006]针对每一目标特征单元，基于该目标特征单元中的各个特征值，对该目标特征单元中的每一特征值进行特征增强处理，其中，所述目标特征单元为：所述第一特征图中沿特征增强方向的特征单元；
[0007]基于增强处理后的第一特征图，对所述待识别文本图像进行文本识别。
[0008]根据本公开的另一方面，提...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法，包括：获得待识别文本图像的第一特征图；针对每一目标特征单元，基于该目标特征单元中的各个特征值，对该目标特征单元中的每一特征值进行特征增强处理，其中，所述目标特征单元为：所述第一特征图中沿特征增强方向的特征单元；基于增强处理后的第一特征图，对所述待识别文本图像进行文本识别。2.根据权利要求1所述的方法，其中，所述针对每一目标特征单元，基于该目标特征单元中的各个特征值，对该目标特征单元中的每一特征值进行特征增强处理，包括：针对每一目标特征单元，基于该目标特征单元中的各个特征值，计算该目标特征单元中的每一特征值的特征增强系数；针对每一目标特征单元，通过对该目标特征单元的系数向量与该目标特征单元的特征向量进行向量计算，对该目标特征单元中的每一特征值进行特征增强处理，其中，所述系数向量为：由该目标特征单元中各特征值的权重系数沿所述特征增强方向构成的向量，所述特征向量为：由特征单元中各特征值沿所述特征增强方向构成的向量。3.根据权利要求2所述的方法，其中，所述基于该目标特征单元中的各个特征值，计算该目标特征单元中的每一特征值的特征增强系数，包括：根据预设的变换系数，按照预设的变换关系，计算该目标特征单元中每一特征值的初始特征增强系数；基于该目标特征单元中各个特征值的初始特征增强系数，更新该目标特征单元中的每一特征值的初始特征增强系数，得到每一特征值的特征增强系数。4.根据权利要求3所述的方法，其中，所述根据预设的变换系数，按照预设的变换关系，计算该目标特征单元中每一特征值的初始特征增强系数，包括：按照以下表达式计算该目标特征单元中每一特征值的初始特征增强系数：其中，e表示所述初始特征增强系数，h表示所述特征值，W1表示第一变换参数，表示所述第一变换参数的转置矩阵，W2表示第二变换参数，b表示第三变换参数。5.根据权利要求3所述的方法，其中，所述基于该目标特征单元中各个特征值的初始特征增强系数，更新该目标特征单元中的每一特征值的初始特征增强系数，得到每一特征值的特征增强系数，包括：按照以下表达式计算该目标特征单元中每一特征值的特征增强系数：其中，e
j
表示所述目标特征单元中第j个特征值的初始特征增强系数，α
j
表示所述目标特征单元中第j个特征值的特征增强系数，n表示所述目标特征单元中特征值的数量。6.根据权利要求1所述的方法，其中，所述针对每一目标特征单元，基于该目标特征单元中的各个特征值，对该目标特征单元中的每一特征值进行特征增强处理，包括：针对每一目标特征单元，基于全局注意力机制，采用该目标特征单元中的各个特征值，
对该目标特征单元中的每一特征值进行特征增强处理。7.根据权利要求1
‑
6中任一项所述的方法，其中，在所述特征增强方向为所述第一特征图的像素列方向的情况下，所述目标特征单元为所述第一特征图的列特征单元；在所述特征增强方向为所述第一特征图的像素行方向的情况下，所述目标特征单元为所述第一特征图的行特征单元。8.根据权利要求1
‑
6中任一项所述的方法，其中，所述获得待识别文本图像的第一特征图，包括：对所述待识别文本图像进行特征提取，得到像素行数量为预设行数、像素列数量为目标列数的第一特征图，其中，所述预设行数大于1，所述目标列数根据所述待识别文本图像的像素列数和所述预设行数计算得到。9.一种文本识别装置，包括：特征图获得模块，用于获得待识别文本图像的第一特征图；特征增强模块，用于针对每一目标特征单元，基于该目标特征单元中的各个...

【专利技术属性】
技术研发人员：吕鹏原，吴亮，刘珊珊，乔美娜，章成全，姚锟，韩钧宇，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人