文本识别模型的训练方法、文本识别方法及相关装置制造方法及图纸

技术编号:36388430 阅读:9 留言:0更新日期:2023-01-18 09:52
本申请公开了一种文本识别模型的训练方法、文本识别方法及相关装置,该方法包括:对第一样本文本图像进行掩码处理,得到第一样本文本图像中的第一掩码区域图像的第一掩码特征和第一非掩码区域图像;利用文本识别模型的编码器对第一样本文本图像的第一非掩码区域图像进行编码得到第一编码特征;对第一掩码特征和第一编码特征进行预测,得到第一样本文本图像的第一文本识别结果;至少基于第一文本识别结果,调整文本识别模型的编码器的参数。通过上述方式,本申请能够提高文本识别模型的文本识别效果。识别效果。识别效果。

【技术实现步骤摘要】
文本识别模型的训练方法、文本识别方法及相关装置


[0001]本申请涉及图像处理
,特别是涉及一种文本识别模型的训练方法、文本识别方法及相关装置。

技术介绍

[0002]自然场景中包含着丰富的文字信息,如卡证识别、短视频字幕智能审核、工业编号识别等众多场景。如果人们能够将这些文字提取出来,并做进一步处理后将会为图像语义的理解提供非常有利的依据和丰富的信息。
[0003]文字提取处理的前提是自然场景图像的获取。目前,大多数自然场景图像都是由人手持手机、平板等电子设备拍摄得到的。人为拍摄容易在拍摄过程中发生抖动,导致拍摄的图像模糊,进而导致自然场景图像的识别效果不佳。

技术实现思路

[0004]本申请主要解决的技术问题是提供一种文本识别模型的训练方法、文本识别方法及相关装置,能够提高文本识别模型的文本识别效果。
[0005]为解决上述技术问题,本申请第一方面提供了一种文本识别模型的训练方法,该方法包括:对第一样本文本图像进行掩码处理,得到第一样本文本图像中的第一掩码区域图像的第一掩码特征和第一非掩码区域图像;利用文本识别模型的编码器对第一样本文本图像的第一非掩码区域图像进行编码得到第一编码特征;对第一掩码特征和第一编码特征进行预测,得到第一样本文本图像的第一文本识别结果;至少基于第一文本识别结果,调整文本识别模型的编码器的参数。
[0006]为解决上述技术问题,本申请第二方面提供了一种文本识别方法,该方法包括:获取目标图像;利用文本识别模型的编码器对目标图像进行编码,得到目标图像的目标编码特征;利用文本识别模型的预测模块对目标图像的目标编码特征进行预测,得到目标图像中的目标文本;其中,文本识别模型为利用上述第一方面所述的方法训练得到的文本识别模型。
[0007]为解决上述技术问题,本申请第三方面提供了一种电子设备,该设备包括相互耦接的存储器和处理器,存储器存储有程序指令;处理器用于执行存储器中存储的程序指令,以实现上述第一方面所述的文本识别模型的训练方法,或实现上述第二方面所述的文本识别方法。
[0008]为解决上述技术问题,本申请第四方面提供了一种计算机可读存储介质,该计算机可读存储介质用于存储程序指令,该程序指令能够被执行以实现上述第一方面所述的文本识别模型的训练方法,或实现上述第二方面所述的文本识别方法。
[0009]本申请的有益效果是:区别于现有技术的情况,本申请在文本识别模型的训练过程中对第一样本文本图像进行掩码处理,得到第一样本文本图像中的第一掩码区域图像的第一掩码特征和第一非掩码区域图像;利用文本识别模型的编码器对第一样本文本图像的
第一非掩码区域图像进行编码得到第一编码特征;对第一掩码特征和第一编码特征进行预测,得到第一样本文本图像的第一文本识别结果;至少基于第一文本识别结果,调整文本识别模型的编码器的参数。通过利用对第一掩码特征和第一编码特征进行预测得到的第一文本识别结果调整编码器的参数,使得文本识别模型的编码器可以在图像模糊的情况下更准确的提取文本图像的特征,进而根据提取的特征预测得到准确的文本内容,以达到提高文本识别模型的识别效果的目的。
附图说明
[0010]图1是本申请提供的文本识别模型的训练方法第一实施方式的流程示意图;
[0011]图2是本申请提供的位置掩码器确定第一样本文本图像的融合特征的示意图;
[0012]图3是本申请提供的编码器得到第一编码特征的示意图;
[0013]图4是本申请提供的文本识别模型的训练方法第二实施方式的流程示意图;
[0014]图5是本申请提供的文本识别模型的训练方法第二实施方式的总体框架示意图;
[0015]图6是本申请提供的文本识别模型的训练方法第三实施方式的流程示意图;
[0016]图7是本申请提供的文本识别模型的训练方法第三实施方式的总体框架示意图;
[0017]图8是本申请提供的文本识别方法一实施方式的流程示意图;
[0018]图9是本申请提供的电子设备一实施方式的框架结构示意图;
[0019]图10是本申请提供的计算机可读存储介质一实施方式的框架示意图。
具体实施方式
[0020]下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0021]需要说明的是,本申请实施例中有涉及“第一”、“第二”等的描述,该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
[0022]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本专利技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0023]请结合参阅图1

3,图1是本申请提供的文本识别模型的训练方法第一实施方式的流程示意图,图2是本申请提供的位置掩码器确定第一样本文本图像的融合特征的示意图,图3是本申请提供的编码器得到第一编码特征的示意图;文本识别模型的训练方法包括:
[0024]S11:对第一样本文本图像进行掩码处理,得到第一样本文本图像中的第一掩码区域图像的第一掩码特征和第一非掩码区域图像。
[0025]在一实施方式中,步骤S11可以由文本识别模型包含的位置掩码器执行,第一样本文本图像标注有真实文本识别结果。第一样本文本图像中的第一掩码区域图像可以根据掩
码比例确定。在一具体实施方式中,可以预先设置掩码比例,根据掩码比例将第一样本文本图像沿预设方向划分为若干图像块,随机对至少一个图像块进行掩码以得到第一掩码区域图像。例如,预设的掩码比例为五分之三,则可以将第一样本文本图像分为五个图像块,随机对其中的三个图像块进行掩码。在另一具体实施方式中,也可以先将第一样本文本图像随机分为若干图像块,再基于掩码比例对至少一个图像块进行掩码以得到第一掩码区域图像。第一样本文本图像中第一掩码区域图像以外的区域即为第一非掩码区域图像。
[0026]在基于预设的掩码比例,确定第一样本文本图像中的第一掩码区域图像和第一非掩码区域图像的同时,还可以确定第一掩码区域图像的词嵌入向量。在一具体实施方式中,确定掩码比例后,可以得到掩码比例信息,掩码比例信息可以包含多个维度的信息,例如,掩码比例信息包含掩码比例以及第一掩码区域图像对应的文本信息,根据掩码比例信息,位置掩码器中的嵌入层可返回对应的词嵌入向量。在另一具体实施方式中,还可以先确定第一掩码区域图像,获取该区域包含的文本信息,根据文本信息获得对应的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别模型的训练方法,其特征在于,所述方法包括:对第一样本文本图像进行掩码处理,得到所述第一样本文本图像中的第一掩码区域图像的第一掩码特征和第一非掩码区域图像;利用所述文本识别模型的编码器对所述第一样本文本图像的所述第一非掩码区域图像进行编码得到第一编码特征;对所述第一掩码特征和所述第一编码特征进行预测,得到所述第一样本文本图像的第一文本识别结果;至少基于所述第一文本识别结果,调整所述文本识别模型的所述编码器的参数。2.根据权利要求1所述的方法,其特征在于,在所述至少基于所述第一文本识别结果,调整所述文本识别模型的所述编码器的参数之前,所述方法还包括:利用所述编码器对所述第一样本文本图像进行编码得到第二编码特征;利用所述文本识别模型的第一预测模块对所述第二编码特征进行预测,得到所述第一样本文本图像的第二文本识别结果;基于所述第二文本识别结果调整所述第一预测模块的参数;所述至少基于所述第一文本识别结果,调整所述文本识别模型的所述编码器的参数,包括:基于所述第一文本识别结果和所述第二文本识别结果,调整所述编码器的参数。3.根据权利要求2所述的方法,其特征在于,所述第一样本文本图像标注有真实文本识别结果;所述基于所述第一文本识别结果和所述第二文本识别结果,调整所述编码器的参数,以及所述基于所述第二文本识别结果调整所述第一预测模块的参数,包括:基于所述第一文本识别结果与所述真实文本识别结果之间的差异,得到第一识别损失,并基于所述第二文本识别结果与所述真实文本识别结果之间的差异,得到第二识别损失;基于所述第一识别损失和第二识别损失,调整所述编码器的参数;以及基于所述第二识别损失调整所述第一预测模块的参数。4.根据权利要求3所述的方法,其特征在于,所述对第一样本文本图像进行掩码处理,得到所述第一样本文本图像中的第一掩码区域图像的第一掩码特征和第一非掩码区域图像是利用位置掩码器执行;所述对所述第一掩码特征和所述第一编码特征进行预测,得到所述第一样本文本图像的第一文本识别结果的步骤是利用第二预测模块执行的;在所述基于所述第一文本识别结果与所述真实文本识别结果之间的差异,得到第一识别损失之后,所述方法还包括:基于所述第一识别损失,调整所述位置掩码器和所述第二预测模块的参数。5.根据权利要求1所述的方法,其特征在于,所述对第一样本文本图像进行掩码处理,得到所述第一样本文本图像中的第一掩码区域图像的第一掩码特征和第一非掩码区域图像是利用位置掩码器执行;在所述对第一样本文本图像进行掩码处理,得到所述第一样本文本图像中的第一掩码区域图像的第一掩码特征和第一非掩码区域图像之前,所述方法还包括:
利用第二样本文本图像对所述位置掩码器和所述编码器进行预训练,其中,所述第二样本文本图像为无标注图像。6.根据权利要求5所述的方法,其特征在于,所述利用第二样本文本图像对所述位置掩码器和所述编码器进行预训练,包括:利用所述位置掩码器对所述第二样本文本图像进行掩码处理,得到所述第二样本文本图像中的第二掩码区域图像的第二掩码特征和第二非掩码区域图像;利用所述编码器对所述第二样本文本图像的所述第二非掩码区域图像进行编码得到第二编码特征;利用解码器基于所述第二掩码特征和第二编码特征对所述第二掩码区域图像进行像素信息重建,得到所述第二掩码区域图像的重建像素信息;基于所述第二掩码区域图像的原始像素信息和所述重建像素信息,调整所述位置掩...

【专利技术属性】
技术研发人员:孟闯曹莹陈媛媛熊剑平
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1