文本识别方法、装置、计算机设备和计算机可读存储介质制造方法及图纸

技术编号:37157635 阅读:37 留言:0更新日期:2023-04-06 22:20
本申请实施例公开了一种文本识别方法、装置、计算机设备和计算机可读存储介质,通过获取文本图像样本;根据文本图像样本的图像属性信息进行图像指标计算,基于计算结果确定参考样本指标;通过特征提取模型针对文本图像样本进行图像特征提取处理,得到图像特征信息;通过特征提取模型基于图像特征信息,进行注意力特征提取,得到关注上下文信息的注意力特征信息;基于注意力特征信息,预测预测样本指标;根据预测样本指标和对应的参考样本指标,对特征提取模型进行训练,以通过训练后特征提取模型提取待识别文本图像的注意力特征信息进行图像文本识别。该方案可以利用大量无标注文本图像样本对特征提取模型进行训练,增强特征提取模型的训练效果。模型的训练效果。模型的训练效果。

【技术实现步骤摘要】
文本识别方法、装置、计算机设备和计算机可读存储介质


[0001]本申请涉及通信
,具体涉及一种文本识别方法、装置、计算机设备和计算机可读存储介质。

技术介绍

[0002]光学字符识别(Optical Character Recognition,OCR)是指计算机设备检测字符的形状,例如纸上打印的字符或者图片中包含的字符,然后用字符识别方法将检测到的形状翻译成计算机文字的过程。在一些应用场景中,例如,广告场景、宣传海报等场景,通常会对字体进行变形,且字体的变形多种多样,为了提高识别的效果,需要获取大量对应场景下的训练样本,并对训练样本进行标注,通过标注的训练数据对模型进行训练,以提高模型识别字符的能力。
[0003]但训练好的模型应用于其他场景时,由于字体的变形方式不同,模型的识别效果差,且获取不同场景下的训练样本,并对大量的训练样本进行标注需要耗费大量的人力,导致训练样本获取难度高,模型训练难度高。

技术实现思路

[0004]本申请实施例提供一种文本识别方法、装置、计算机设备和计算机可读存储介质,可以利用无标注文本图像样本对特征提取模型进行训练,增强特征提取模型的训练效果。
[0005]本申请实施例提供的一种文本识别方法,包括:
[0006]获取文本图像样本;
[0007]根据所述文本图像样本的图像属性信息进行图像指标计算,基于计算结果确定所述文本图像样本的参考样本指标;
[0008]通过特征提取模型针对所述文本图像样本进行图像特征提取处理,得到所述文本图像样本的图像特征信息;
[0009]通过所述特征提取模型基于所述图像特征信息,对所述文本图像样本进行注意力特征提取,得到所述文本图像样本的关注上下文信息的注意力特征信息;
[0010]基于所述文本图像样本的注意力特征信息,预测所述文本图像样本的预测样本指标;
[0011]根据所述预测样本指标和对应的参考样本指标,对所述特征提取模型进行训练,以通过训练后特征提取模型提取待识别文本图像的注意力特征信息进行图像文本识别。
[0012]相应的,本申请实施例还提供的一种文本识别装置,包括:
[0013]获取单元,用于获取文本图像样本;
[0014]计算单元,用于根据所述文本图像样本的图像属性信息进行图像指标计算,基于计算结果确定所述文本图像样本的参考样本指标;
[0015]第一特征提取单元,用于通过特征提取模型针对所述文本图像样本进行图像特征提取处理,得到所述文本图像样本的图像特征信息;
[0016]第二特征提取单元,用于通过所述特征提取模型基于所述图像特征信息,对所述文本图像样本进行注意力特征提取,得到所述文本图像样本的关注上下文信息的注意力特征信息;
[0017]预测单元,用于基于所述文本图像样本的注意力特征信息,预测所述文本图像样本的预测样本指标;
[0018]训练单元,用于根据所述预测样本指标和对应的参考样本指标,对所述特征提取模型进行训练,以通过训练后特征提取模型提取待识别文本图像的注意力特征信息进行图像文本识别。
[0019]相应的,本申请实施例还提供的一种计算机设备,包括存储器和处理器;所述存储器存储有计算机程序,所述处理器用于运行所述存储器内的计算机程序,以执行本申请实施例提供的任一种文本识别方法。
[0020]相应的,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被处理器加载以执行本申请实施例提供的任一种文本识别方法。
[0021]本申请实施例通过获取文本图像样本;根据所述文本图像样本的图像属性信息进行图像指标计算,基于计算结果确定所述文本图像样本的参考样本指标;通过特征提取模型针对所述文本图像样本进行图像特征提取处理,得到所述文本图像样本的图像特征信息;通过所述特征提取模型基于所述图像特征信息,对所述文本图像样本进行注意力特征提取,得到所述文本图像样本的关注上下文信息的注意力特征信息;基于所述文本图像样本的注意力特征信息,预测所述文本图像样本的预测样本指标;根据所述预测样本指标和对应的参考样本指标,对所述特征提取模型进行训练,以通过训练后特征提取模型提取待识别文本图像的注意力特征信息进行图像文本识别。该方案通过参考样本指标以及预测样本指标对特征提取模型进行训练,可以利用大量无标注文本图像样本对特征提取模型进行训练,增强特征提取模型的训练效果。
附图说明
[0022]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]图1是本申请实施例提供的文本识别方法的场景图;
[0024]图2是本申请实施例提供的文本识别方法的流程图;
[0025]图3是本申请实施例提供的图像还原处理的流程图;
[0026]图4是本申请实施例提供的文本识别方法的另一流程图;
[0027]图5是本申请实施例提供的特征提取网络结构示意图;
[0028]图6是本申请实施例提供的模型结构示意图;
[0029]图7是本申请实施例提供的文本识别装置示意图;
[0030]图8是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
[0031]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0032]本申请实施例提供一种文本识别方法、装置、计算机设备和计算机可读存储介质。该文本识别装置可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备。
[0033]其中,该终端可以包括手机、穿戴式智能设备、平板电脑、笔记本电脑、个人计算(PC,Personal Computer)、以及车载计算机等。
[0034]其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0035]例如,如图1所示,文本识别方法可以包括上游任务、下游任务以及特征提取任务,特征提取任务中计算机设备可以获取文本图像样本,通过特征提取模型的DenseNet神经网络对文本图像样本进行图像特征提取处理,得到文本图像样本的图像特征信息,特征提取模型对图像特征信息进行随机掩码处理后,基于多头注意力特征机制对掩码后图像特征信息进行注意力特征提取,得到文本图像样本的初始注意力特征信息,初始注意力特征信息依次通过第一BN(Batch 本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:获取文本图像样本;根据所述文本图像样本的图像属性信息进行图像指标计算,基于计算结果确定所述文本图像样本的参考样本指标;通过特征提取模型针对所述文本图像样本进行图像特征提取处理,得到所述文本图像样本的图像特征信息;通过所述特征提取模型基于所述图像特征信息,对所述文本图像样本进行注意力特征提取,得到所述文本图像样本的关注上下文信息的注意力特征信息;基于所述文本图像样本的注意力特征信息,预测所述文本图像样本的预测样本指标;根据所述预测样本指标和对应的参考样本指标,对所述特征提取模型进行训练,以通过训练后特征提取模型提取待识别文本图像的注意力特征信息进行图像文本识别。2.根据权利要求1所述的方法,其特征在于,所述根据所述文本图像样本的图像属性信息进行图像指标计算,基于计算结果确定所述文本图像样本的参考样本指标,包括:根据所述文本图像样本的图像属性信息进行图像指标计算,得到至少一个图像指标信息;将所述至少一个指标信息进行指标合并处理,得到所述文本图像样本的参考样本指标。3.根据权利要求2所述的方法,其特征在于,所述将所述至少一个指标信息进行指标合并处理,得到所述文本图像样本的参考样本指标,包括:获取至少一个图像指标的指标值表达类型;根据所述指标值表达类型对所述至少一个图像指标信息进行指标合并处理,得到所述文本图像样本的参考样本指标。4.根据权利要求1所述的方法,其特征在于,所述参考样本指标包括至少两个类型的参考样本指标,所述基于所述文本图像样本的注意力特征信息,预测所述文本图像样本的预测样本指标,包括:确定每个指标类型对应的特征处理方式;针对每个指标类型的,采用对应的特征处理方式对注意力特征信息进行处理,得到每个指标类型对应的预测样本指标。5.根据权利要求4所述的方法,其特征在于,所述特征处理方式包括图像还原处理,所述采用对应的特征处理方式对注意力特征信息进行处理,得到每个指标类型对应的预测样本指标,包括:基于所述注意力特征信息进行转置卷积处理,得到处理后注意力特征信息;对所述处理后注意力特征信息进行归一化处理,得到所述预测样本指标。6.根据权利要求1所述的方法,其特征在于,所述图像特征信息包括图像特征向量,所述通过所述特征提取模型基于所述图像特征信息,对所述文本图像样本进行注意力特征提取,得到所述文本图像样本的关注上下文信息的注意力特征信息,包括:对所述图像特征向量进行注意力空间映射处理,得到所述文本图像样本中每个图像区域在所述注意力空间中对应空间向量,所述空间向量可以包括查询向量、内容向量以及关键向量;
针对每个图像区域,根据所述图像区域的查询向量与关联图像区域的关键向量之间的距离,计算所述图像区域与所述关联图像区域之间的相似度;针对每个图像区域,根据所述图像区域的关键向量与所述关联图像区域之间的相似度,对所述图像区域和所述关联图像区域的内容向量进行融合处理,得到所述关注上下文信息的注意力特征信息。7.根据权利要求1所述的方法,其特征在于,所述特征提取模型包括多层特征提取机制,所述通过所述特征提取模型基于所述图像特征信息,对所述文本图像样本进行注意力特征提取,得到所述文本图像样本的关注上下文信息的注意力特征信息,包括:将所述图像特征信息作为所述多层特征提取机制的输入特征信息;通过所述多层特征提取机制依次对...

【专利技术属性】
技术研发人员:王斌薛莫白曹浩宇包志敏姜德强
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1