文本识别模型训练方法、文本识别方法、装置及存储介质制造方法及图纸

技术编号:37717341 阅读:8 留言:0更新日期:2023-06-02 00:14
本公开提供了一种文本识别模型训练方法、文本识别方法、装置及存储介质。本公开涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别等场景。具体实现方案为:获取第一训练数据;将第一训练数据输入待训练的目标模型;获取目标模型基于第一训练数据输出的预测文本和预测掩码特征;基于预测文本、预测掩码特征、真实文本和被掩码掉的原始特征,训练目标模型,得到文本识别模型。根据本公开的方案,能够提高文本识别的准确性。别的准确性。别的准确性。

【技术实现步骤摘要】
文本识别模型训练方法、文本识别方法、装置及存储介质


[0001]本公开涉及人工智能
,具体为深度学习、图像处理、计算机视觉
,可应用于光学字符识别等场景。

技术介绍

[0002]近些年来,文字识别技术飞速发展。常见的通用场景,很多开源算法或者论文算法基本可以达到可用状态。然而,对于一些版式差异不同、形态变化较大、应用场景特点明显的多场景多分布输入,给文字识别系统带来了巨大挑战。此外,对于银行、保险公司、车管所、事业单位等具有很多卡证、票据、单据识别需求的单位,需要大量重复人工操作,包括拍照、审核、信息录入、系统比对等,也会出现场景较多、分布不均匀等问题,导致文字识别准确率较低。

技术实现思路

[0003]本公开提供了一种文本识别模型训练方法、文本识别方法、装置及存储介质。
[0004]根据本公开的第一方面,提供了一种文本识别模型训练方法,包括:
[0005]获取第一训练数据;
[0006]将第一训练数据输入待训练的目标模型;
[0007]获取目标模型基于第一训练数据输出的预测文本和预测掩码特征;
[0008]基于预测文本、预测掩码特征、真实文本和被掩码掉的原始特征,训练目标模型,得到文本识别模型。
[0009]根据本公开的第二方面,提供了一种文本识别方法,包括:
[0010]获取待识别图像;
[0011]获取待识别图像的K个图像,K个图像是对待识别图像做行级别划分后得到的,K为不小于1的整数;
[0012]将K个图像输入文本识别模型,获得文本识别模型根据K个图像输出的待识别图像的预测文本,该文本识别模型通过第一方面提供的文本识别模型训练方法训练获得。
[0013]根据本公开的第三方面,提供了一种文本识别模型训练装置,包括:
[0014]第一获取模块,用于获取第一训练数据;
[0015]第一输入模块,用于将第一训练数据输入待训练的目标模型;
[0016]第二获取模块,用于获取目标模型基于第一训练数据输出的预测文本和预测掩码特征;
[0017]第一训练模块,用于基于预测文本、预测掩码特征、真实文本和被掩码掉的原始特征,训练目标模型,得到文本识别模型。
[0018]根据本公开的第四方面,提供了一种文本识别装置,包括:
[0019]第五获取模块,用于获取待识别图像;
[0020]第六获取模块,用于获取待识别图像的K个图像,K个图像是对待识别图像做行级
别划分后得到的,K为不小于1的整数;
[0021]识别模块,用于将K个图像输入文本识别模型,获得文本识别模型根据K个图像输出的待识别图像的预测文本,该文本识别模型通过第一方面提供的文本识别模型训练方法训练获得。
[0022]根据本公开的第五方面,提供了一种电子设备,包括:
[0023]至少一个处理器;
[0024]与至少一个处理器通信连接的存储器;
[0025]存储器存储有可以被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面提供的文本识别模型训练方法和/或第二方面提供的文本识别方法。
[0026]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行第一方面提供的文本识别模型训练方法和/或第二方面提供的文本识别方法。
[0027]根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现第一方面提供的文本识别模型训练方法和/或第二方面提供的文本识别方法。
[0028]根据本公开的方案,能够提高文本识别的准确性。
[0029]上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
[0030]在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
[0031]图1是根据本公开实施例的文本识别模型训练方法的流程示意图;
[0032]图2是根据本公开实施例的文本识别模型训练的总体架构示意图;
[0033]图3是根据本公开实施例的基于掩码特征的多监督文字识别处理示意图;
[0034]图4是根据本公开实施例的文本识别模型的结构示意图;
[0035]图5是根据本公开实施例的对第一原始图像进行掩码处理的示意图;
[0036]图6是根据本公开实施例的文本识别方法的流程示意图;
[0037]图7是根据本公开实施例的文本识别模型训练装置的结构示意图;
[0038]图8是根据本公开实施例的文本识别装置的结构示意图;
[0039]图9是根据本公开实施例的文本识别模型训练的场景示意图;
[0040]图10是根据本公开实施例的文本识别的场景示意图;
[0041]图11是用来实现本公开实施例的文本识别模型训练方法和/或文本识别方法的电子设备的结构示意图。
具体实施方式
[0042]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0043]本公开的说明书实施例和权利要求书及上述附图中的术语“第一”“第二”和“第三”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0044]相关技术中,文字识别系统通常包含通用检测模型和通用识别模型,通用识别模型分为中英横排识别模型、竖排识别模型。即,针对输入的一张自然场景的图片,按照文字的排列顺序和阅读顺序区分横竖排,使得不同排列的文字都可以识别。但是对于输入图片的场景不同时,一个模型很难同时适应多个场景。同时,对于任意场景,多场景数据融合训练的模型差于单一场景数据训练的模型,导致统一识别模型方案效果较差。
[0045]常见的文字识别方案分为连接时序分类(Connectionist Temporal Classification,CTC)识别和注意力(Attention Model)识别。对于系统服务来说,Attention属于串行预测解码,预测速度慢。CTC则能并行解码且预测速度较快。因此,本公开文本识别模型采用CTC解码本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别模型训练方法,包括:获取第一训练数据;将所述第一训练数据输入待训练的目标模型;获取所述目标模型基于所述第一训练数据输出的预测文本和预测掩码特征;基于所述预测文本、所述预测掩码特征、真实文本和被掩码掉的原始特征,训练所述目标模型,得到文本识别模型。2.根据权利要求1所述的方法,其中,所述基于所述预测文本、所述预测掩码特征、真实文本和被掩码掉的原始特征,训练所述目标模型,包括:基于所述预测掩码特征与所述被掩码掉的原始特征构建第一损失函数;基于所述预测文本与所述真实文本构建第二损失函数;基于所述第一损失函数和所述第二损失函数,训练所述目标模型。3.根据权利要求1所述的方法,其中,所述获取第一训练数据,包括:收集第一原始图像;识别所述第一原始图像得到所述第一原始图像上的真实文本;对所述第一原始图像做行级别划分,得到所述第一原始图像的M个图像,M为不小于1的整数,所述第一训练数据至少包括所述第一原始图像的M个图像和所述第一原始图像上的真实文本。4.根据权利要求1所述的方法,其中,所述目标模型包括第一编码器、解码器和预测器,其中,获取所述目标模型基于所述第一训练数据输出的预测文本,包括:利用所述第一编码器提取完整图像特征;利用所述解码器对所述完整图像特征进行解码,得到待识别特征;利用所述预测器对所述待识别特征进行预测,得到所述预测文本。5.根据权利要求4所述的方法,其中,所述目标模型还包括第二编码器,所述第二编码器与所述解码器连接,其中,获取所述目标模型基于所述第一训练数据输出的预测掩码特征,包括:根据掩码率对所述第二编码器提取的图像特征进行掩码处理;利用所述解码器对掩码处理后的图像特征进行解码,得到所述预测掩码特征。6.根据权利要求1至5任一项所述的方法,还包括:获取第二训练数据;将所述第二训练数据输入待训练模型;获取所述待训练模型基于所述第二训练数据输出的重构图像;基于所述重构图像构建无监督损失函数;基于所述无监督损失函数训练所述待训练模型,得到所述目标模型。7.根据权利要求6所述的方法,其中,所述获取第二训练数据,包括:收集第二原始图像;对所述第二原始图像做行级别划分,得到所述第二原始图像的N个图像,N为不小于1的整数,所述第二训练数据包括所述第二原始图像的N个图像。8.一种文本识别方法,包括:获取待识别图像;
获取所述待识别图像的K个图像,所述K个图像是对所述待识别图像做行级别划分后得到的,K为不小于1的整数;将所述K个图像输入文本识别模型,获得所述文本识别模型根据所述K个图像输出的所述待识别图像的预测文本,所述文本识别模型通过权利要求1至7中任一项所述的方法训练获得。9.根据权利要求8所述的方法,其中,所述获得所述文本识别模型根据所述K个图像输出的所述待识别图像的预测文本,包括:获取基于所述K个图像得到的完整图像特征;获取基于所述K个图像得到的预测掩码特征;基于所述完整图像特征和所述预测掩码特征,得到所述待识别图像的所述预测文本。10.根据权利要求9所述的方法,其中,所述文本识别模型包括第一编码器、第二编码器和解码器,所述第一编码器和所述第二编码器分别与所述解码器连接;其中,所述获取基于所述K个图像得到的完整图像特征,包括:获取通过所述第一编码器基于所述K个图像提取到的完整图像特征;所述获取基于所述K个图像得到的预测掩码特征,包括:根据掩码率对所述第二编码器提取的图像特征进行掩码处理;利用所述第二解码器对掩码处理后的图像特征进行解码,得到所述预测掩码特征。11.一种文本识别模型训练装置,包括:第一获取模块,用于获取第一训练数据;第一输入模块,用于将所述第一训练数据输入待训练的目标模型;第二获取模块,用于获取所述目标模型基于所述第一训练数据输出的预测文本和预测掩码特征;第一训练模块,用于基于所述预测文本、所述预测掩码特征、真实文本和被掩码掉的原始特征,训练所述目标模型,得到文本识别模型。12.根据权利要求11所述的装置,其中,所述第一训练模块,包括:第一构建子模块,用于基于所述预...

【专利技术属性】
技术研发人员:刘珊珊吕鹏原乔美娜吴亮章成全姚锟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1