一种文本识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：36963599 阅读：11 留言：0更新日期：2023-03-22 19:24

本公开提供了一种文本识别方法、装置、计算机设备及存储介质，其中，该方法包括：获取包含待识别文本的初始图像；基于预先训练的目标网络模型，确定所述初始图像对应的第一特征向量；基于所述第一特征向量，和携带有文本标记的各待筛选图像分别对应的第二特征向量，将所述初始图像和各待筛选图像进行匹配；在检测到所述待筛选图像中包含与所述初始图像匹配的目标图像的情况下，基于所述目标图像对应的文本标记和通过所述光学字符识别方法确定的所述初始图像的初始文本识别结果，确定所述初始图像对应的目标文本识别结果。图像对应的目标文本识别结果。图像对应的目标文本识别结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本识别方法、装置、计算机设备及存储介质

[0001]本公开涉及文本识别
，具体而言，涉及一种文本识别方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着深度学习技术的快速发展，神经网络被应用在越来越多的领域中，以帮助人们提高生产效率。
[0003]在计算机视觉
中，基于深度学习技术构建的光学字符识别(Optical Character Recognition，OCR)模型被越来越多的应用在图像中文本识别的场景中，但实际应用中由于光学字符识别模型的训练数据、训练方法等方面可能存在问题，因此训练完成后的光学字符识别模型可能无法识别部分图像中的文本内容，此时往往需要对光学字符识别模型进行针对性训练，这一训练过程需要耗费较多的人力和物力，难以快速的解决在具体应用场景中出现的时效要求较高的漏洞，效率低下。

技术实现思路

[0004]本公开实施例至少提供一种文本识别方法、装置、计算机设备及存储介质。
[0005]第一方面，本公开实施例提供了一种文本识别方法，包括：
[0006]获取包含待识别文本的初始图像；
[0007]基于预先训练的目标网络模型，确定所述初始图像对应的第一特征向量；
[0008]基于所述第一特征向量，和携带有文本标记的各待筛选图像分别对应的第二特征向量，将所述初始图像和各待筛选图像进行匹配，其中，所述待筛选图像的文本标记用于指示所述待筛选图像中的文本内容，所述待筛选图像中的文本内容为基于光学字符识别方法识别错误的文本内容；/>[0009]在检测到所述待筛选图像中包含与所述初始图像匹配的目标图像的情况下，基于所述目标图像对应的文本标记和通过所述光学字符识别方法确定的所述初始图像的初始文本识别结果，确定所述初始图像对应的目标文本识别结果。
[0010]一种可能的实施方式中，所述目标网络模型为根据以下步骤训练得到的：
[0011]获取样本图像对，其中，所述样本图像对包括正样本图像对和负样本图像对，所述正样本图像对中的图像来源于同一初始样本图像，所述负样本图像对中的图像来源于不同初始样本图像；
[0012]将所述样本图像对中的第一样本图像和第二样本图像分别输入至待训练的初始网络模型中，得到所述待训练的初始网络模型输出的第一样本向量和第二样本向量；其中，所述第一样本向量包括多个第一样本局部向量和第一样本全局向量，所述第二样本向量包括多个第二样本局部向量和第二样本全局向量；
[0013]基于所述第一样本向量和所述第二样本向量，确定训练的损失值，并基于所述损失值对待训练的初始网络模型的网络参数值进行调整，得到所述目标网络模型。
[0014]一种可能的实施方式中，所述方法还包括根据以下方法确定所述正样本图像对和负样本图像对：
[0015]获取多张初始样本图像；
[0016]针对任一初始样本图像，分别基于不同的图像增强处理方式对该初始样本图像进行图像增强处理，得到多张增强样本图像，并将所述多张增强样本图像中的任意两张增强样本图像作为所述正样本图像对；以及，将任意两张所述初始样本图像作为所述负样本图像对，或者对所述任意两张所述初始样本图像中的至少一张图像进行图像增强处理，得到所述负样本图像对。
[0017]一种可能的实施方式中，所述目标网络模型包含特征提取模块和上下文特征增强模块；
[0018]在将任一样本图像输入至所述初始网络模型之后，所述初始网络模型用于根据以下步骤确定该样本图像对应的样本向量：
[0019]将该样本图像输入至所述目标网络模型的特征提取模块中，得到所述特征提取模块输出的该样本图像的不同区域分别对应的第三样本向量；
[0020]将所述第三样本向量分别输入至所述上下文特征增强模块，得到所述上下文特征增强模块输出的，经过上下文特征增强处理的增强样本向量；
[0021]基于所述经过上下文特征增强处理的增强样本向量，生成该样本图像对应的样本向量。
[0022]一种可能的实施方式中，所述目标网络模型包含第一池化模块和第二池化模块；
[0023]所述基于所述经过上下文特征增强处理的增强样本向量，生成该样本图像对应的样本向量，包括：
[0024]将各所述增强样本向量输入至所述第一池化模块，得到所述第一池化模块输出的多个样本局部向量；以及，将各所述增强样本向量输入至所述第二池化模块，得到所述第二池化模块输出的样本全局向量；
[0025]其中，所述第二池化模块包含的池化处理算子的个数，大于所述第一池化模块所包含的池化处理算子的个数。
[0026]一种可能的实施方式中，所述基于所述第一样本向量和所述第二样本向量，确定训练的损失值，包括：
[0027]基于第一样本局部向量和所述第二样本局部向量，确定局部特征损失值；以及，基于所述第一样本全局向量和所述第二样本全局向量，确定全局特征损失值；
[0028]基于所述局部特征损失值和所述全局特征损失值，确定训练的目标损失值。
[0029]一种可能的实施方式中，所述第二特征向量为所述待筛选图像对应的多个局部特征向量拼接得到的，所述待筛选图像对应的多个局部特征向量为通过所述目标网络模型确定的；
[0030]所述基于预先训练的目标网络模型，确定所述初始图像对应的第一特征向量，包括：
[0031]将所述初始图像输入至所述目标网络模型，得到所述初始图像对应的多个局部特征向量；
[0032]将所述多个局部特征向量进行拼接，得到所述第一特征向量。
[0033]一种可能的实施方式中，所述基于所述目标图像对应的文本标记和通过所述光学字符识别方法确定的所述初始图像的初始文本识别结果，确定所述初始图像对应的目标文本识别结果，包括：
[0034]基于所述目标图像对应的文本标记指示的文本内容，对所述初始图像的初始文本识别结果进行更新，得到所述初始图像对应的目标文本识别结果。
[0035]第二方面，本公开实施例还提供一种文本识别装置，包括：
[0036]获取模块，用于获取包含待识别文本的初始图像；
[0037]第一确定模块，用于基于预先训练的目标网络模型，确定所述初始图像对应的第一特征向量；
[0038]匹配模块，用于基于所述第一特征向量，和携带有文本标记的各待筛选图像分别对应的第二特征向量，将所述初始图像和各待筛选图像进行匹配，其中，所述待筛选图像的文本标记用于指示所述待筛选图像中的文本内容，所述待筛选图像中的文本内容为基于光学字符识别方法识别错误的文本内容；
[0039]第二确定模块，用于在检测到所述待筛选图像中包含与所述初始图像匹配的目标图像的情况下，基于所述目标图像对应的文本标记和通过所述光学字符识别方法确定的所述初始图像的初始文本识别结果，确定所述初始图像对应的目标文本识别结果。
[0040]一种可能的实施方式中，所述第一确定模块还用于根据以下步骤训练得到目标网络模型：
[0041]获取样本图像对，其中本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法，其特征在于，包括：获取包含待识别文本的初始图像；基于预先训练的目标网络模型，确定所述初始图像对应的第一特征向量；基于所述第一特征向量，和携带有文本标记的各待筛选图像分别对应的第二特征向量，将所述初始图像和各待筛选图像进行匹配，其中，所述待筛选图像的文本标记用于指示所述待筛选图像中的文本内容，所述待筛选图像中的文本内容为基于光学字符识别方法识别错误的文本内容；在检测到所述待筛选图像中包含与所述初始图像匹配的目标图像的情况下，基于所述目标图像对应的文本标记和通过所述光学字符识别方法确定的所述初始图像的初始文本识别结果，确定所述初始图像对应的目标文本识别结果。2.根据权利要求1所述的方法，其特征在于，所述目标网络模型为根据以下步骤训练得到的：获取样本图像对，其中，所述样本图像对包括正样本图像对和负样本图像对，所述正样本图像对中的图像来源于同一初始样本图像，所述负样本图像对中的图像来源于不同初始样本图像；将所述样本图像对中的第一样本图像和第二样本图像分别输入至待训练的初始网络模型中，得到所述待训练的初始网络模型输出的第一样本向量和第二样本向量；其中，所述第一样本向量包括多个第一样本局部向量和第一样本全局向量，所述第二样本向量包括多个第二样本局部向量和第二样本全局向量；基于所述第一样本向量和所述第二样本向量，确定训练的损失值，并基于所述损失值对待训练的初始网络模型的网络参数值进行调整，得到所述目标网络模型。3.根据权利要求2所述的方法，其特征在于，所述方法还包括根据以下方法确定所述正样本图像对和负样本图像对：获取多张初始样本图像；针对任一初始样本图像，分别基于不同的图像增强处理方式对该初始样本图像进行图像增强处理，得到多张增强样本图像，并将所述多张增强样本图像中的任意两张增强样本图像作为所述正样本图像对；以及，将任意两张所述初始样本图像作为所述负样本图像对，或者对所述任意两张所述初始样本图像中的至少一张图像进行图像增强处理，得到所述负样本图像对。4.根据权利要求2或3所述的方法，其特征在于，所述目标网络模型包含特征提取模块和上下文特征增强模块；在将任一样本图像输入至所述初始网络模型之后，所述初始网络模型用于根据以下步骤确定该样本图像对应的样本向量：将该样本图像输入至所述目标网络模型的特征提取模块中，得到所述特征提取模块输出的该样本图像的不同区域分别对应的第三样本向量；将所述第三样本向量分别输入至所述上下文特征增强模块，得到所述上下文特征增强模块输出的，经过上下文特征增强处理的增强样本向量；基于所述经过上下文特征增强处理的增强样本向量，生成该样本图像对应的样本向量。
5.根据权利要求4所述的方法，其特征在于，所述目标网络模型包含第一池化模块和第二池化模块；所述基于所述经过上下文特征增强处理的增强样本向量，生成该样本图像对应...

【专利技术属性】
技术研发人员：马振宇，周多友，黄凯，
申请(专利权)人：北京闪星科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人