文本识别方法、装置、计算机设备和计算机可读存储介质制造方法及图纸

技术编号：37157635 阅读：37 留言：0更新日期：2023-04-06 22:20

本申请实施例公开了一种文本识别方法、装置、计算机设备和计算机可读存储介质，通过获取文本图像样本；根据文本图像样本的图像属性信息进行图像指标计算，基于计算结果确定参考样本指标；通过特征提取模型针对文本图像样本进行图像特征提取处理，得到图像特征信息；通过特征提取模型基于图像特征信息，进行注意力特征提取，得到关注上下文信息的注意力特征信息；基于注意力特征信息，预测预测样本指标；根据预测样本指标和对应的参考样本指标，对特征提取模型进行训练，以通过训练后特征提取模型提取待识别文本图像的注意力特征信息进行图像文本识别。该方案可以利用大量无标注文本图像样本对特征提取模型进行训练，增强特征提取模型的训练效果。模型的训练效果。模型的训练效果。

全部详细技术资料下载

【技术实现步骤摘要】
文本识别方法、装置、计算机设备和计算机可读存储介质

[0001]本申请涉及通信
，具体涉及一种文本识别方法、装置、计算机设备和计算机可读存储介质。

技术介绍

[0002]光学字符识别(Optical Character Recognition，OCR)是指计算机设备检测字符的形状，例如纸上打印的字符或者图片中包含的字符，然后用字符识别方法将检测到的形状翻译成计算机文字的过程。在一些应用场景中，例如，广告场景、宣传海报等场景，通常会对字体进行变形，且字体的变形多种多样，为了提高识别的效果，需要获取大量对应场景下的训练样本，并对训练样本进行标注，通过标注的训练数据对模型进行训练，以提高模型识别字符的能力。
[0003]但训练好的模型应用于其他场景时，由于字体的变形方式不同，模型的识别效果差，且获取不同场景下的训练样本，并对大量的训练样本进行标注需要耗费大量的人力，导致训练样本获取难度高，模型训练难度高。

技术实现思路

[0004]本申请实施例提供一种文本识别方法、装置、计算机设备和计算机可读存储介质，可以利用无标注文本图像样本对特征提取模型进行训练，增强特征提取模型的训练效果。
[0005]本申请实施例提供的一种文本识别方法，包括：
[0006]获取文本图像样本；
[0007]根据所述文本图像样本的图像属性信息进行图像指标计算，基于计算结果确定所述文本图像样本的参考样本指标；
[0008]通过特征提取模型针对所述文本图像样本进行图像特征提取处理，得到所述文本图...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法，其特征在于，包括：获取文本图像样本；根据所述文本图像样本的图像属性信息进行图像指标计算，基于计算结果确定所述文本图像样本的参考样本指标；通过特征提取模型针对所述文本图像样本进行图像特征提取处理，得到所述文本图像样本的图像特征信息；通过所述特征提取模型基于所述图像特征信息，对所述文本图像样本进行注意力特征提取，得到所述文本图像样本的关注上下文信息的注意力特征信息；基于所述文本图像样本的注意力特征信息，预测所述文本图像样本的预测样本指标；根据所述预测样本指标和对应的参考样本指标，对所述特征提取模型进行训练，以通过训练后特征提取模型提取待识别文本图像的注意力特征信息进行图像文本识别。2.根据权利要求1所述的方法，其特征在于，所述根据所述文本图像样本的图像属性信息进行图像指标计算，基于计算结果确定所述文本图像样本的参考样本指标，包括：根据所述文本图像样本的图像属性信息进行图像指标计算，得到至少一个图像指标信息；将所述至少一个指标信息进行指标合并处理，得到所述文本图像样本的参考样本指标。3.根据权利要求2所述的方法，其特征在于，所述将所述至少一个指标信息进行指标合并处理，得到所述文本图像样本的参考样本指标，包括：获取至少一个图像指标的指标值表达类型；根据所述指标值表达类型对所述至少一个图像指标信息进行指标合并处理，得到所述文本图像样本的参考样本指标。4.根据权利要求1所述的方法，其特征在于，所述参考样本指标包括至少两个类型的参考样本指标，所述基于所述文本图像样本的注意力特征信息，预测所述文本图像样本的预测样本指标，包括：确定每个指标类型对应的特征处理方式；针对每个指标类型的，采用对应的特征处理方式对注意力特征信息进行处理，得到每个指标类型对应的预测样本指标。5.根据权利要求4所述的方法，其特征在于，所述特征处理方式包括图像还原处理，所述采用对应的特征处理方式对注意力特征信息进行处理，得到每个指标类型对应的预测样本指标，包括：基于所述注意力特征信息进行转置卷积处理，得到处理后注意力特征信息；对所述处理后注意力特征信息进行归一化处理，得到所述预测样本指标。6.根据权利要求1所述的方法，其特征在于，所述图像特征信息包括图像特征向量，所述通过所述特征提取模型基于所述图像特征信息，对所述文本图像样本进行注意力特征提取，得到所述文本图像样本的关注上下文信息的注意力特征信息，包括：对所述图像特征向量进行注意力空间映射处理，得到所述文本图像样本中每个图像区域在所述注意力空间中对应空间向量，所述空间向量可以包括查询向量、内容向量以及关键向量；
针对每个图像区域，根据所述图像区域的查询向量与关联图像区域的关键向量之间的距离，计算所述图像区域与所述关联图像区域之间的相似度；针对每个图像区域，根据所述图像区域的关键向量与所述关联图像区域之间的相似度，对所述图像区域和所述关联图像区域的内容向量进行融合处理，得到所述关注上下文信息的注意力特征信息。7.根据权利要求1所述的方法，其特征在于，所述特征提取模型包括多层特征提取机制，所述通过所述特征提取模型基于所述图像特征信息，对所述文本图像样本进行注意力特征提取，得到所述文本图像样本的关注上下文信息的注意力特征信息，包括：将所述图像特征信息作为所述多层特征提取机制的输入特征信息；通过所述多层特征提取机制依次对...

【专利技术属性】
技术研发人员：王斌，薛莫白，曹浩宇，包志敏，姜德强，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人