文本识别模型的训练方法、文本识别方法及相关装置制造方法及图纸

技术编号：36388430 阅读：9 留言：0更新日期：2023-01-18 09:52

本申请公开了一种文本识别模型的训练方法、文本识别方法及相关装置，该方法包括：对第一样本文本图像进行掩码处理，得到第一样本文本图像中的第一掩码区域图像的第一掩码特征和第一非掩码区域图像；利用文本识别模型的编码器对第一样本文本图像的第一非掩码区域图像进行编码得到第一编码特征；对第一掩码特征和第一编码特征进行预测，得到第一样本文本图像的第一文本识别结果；至少基于第一文本识别结果，调整文本识别模型的编码器的参数。通过上述方式，本申请能够提高文本识别模型的文本识别效果。识别效果。识别效果。

全部详细技术资料下载

【技术实现步骤摘要】
文本识别模型的训练方法、文本识别方法及相关装置

[0001]本申请涉及图像处理
，特别是涉及一种文本识别模型的训练方法、文本识别方法及相关装置。

技术介绍

[0002]自然场景中包含着丰富的文字信息，如卡证识别、短视频字幕智能审核、工业编号识别等众多场景。如果人们能够将这些文字提取出来，并做进一步处理后将会为图像语义的理解提供非常有利的依据和丰富的信息。
[0003]文字提取处理的前提是自然场景图像的获取。目前，大多数自然场景图像都是由人手持手机、平板等电子设备拍摄得到的。人为拍摄容易在拍摄过程中发生抖动，导致拍摄的图像模糊，进而导致自然场景图像的识别效果不佳。

技术实现思路

[0004]本申请主要解决的技术问题是提供一种文本识别模型的训练方法、文本识别方法及相关装置，能够提高文本识别模型的文本识别效果。
[0005]为解决上述技术问题，本申请第一方面提供了一种文本识别模型的训练方法，该方法包括：对第一样本文本图像进行掩码处理，得到第一样本文本图像中的第一掩码区域图像的第一掩码特征和第一非掩码区域图像；利用文本识别模型的编码器对第一样本文本图像的第一非掩码区域图像进行编码得到第一编码特征；对第一掩码特征和第一编码特征进行预测，得到第一样本文本图像的第一文本识别结果；至少基于第一文本识别结果，调整文本识别模型的编码器的参数。
[0006]为解决上述技术问题，本申请第二方面提供了一种文本识别方法，该方法包括：获取目标图像；利用文本识别模型的编码器对目标图像进行编码，得到目标图...

【技术保护点】

【技术特征摘要】
1.一种文本识别模型的训练方法，其特征在于，所述方法包括：对第一样本文本图像进行掩码处理，得到所述第一样本文本图像中的第一掩码区域图像的第一掩码特征和第一非掩码区域图像；利用所述文本识别模型的编码器对所述第一样本文本图像的所述第一非掩码区域图像进行编码得到第一编码特征；对所述第一掩码特征和所述第一编码特征进行预测，得到所述第一样本文本图像的第一文本识别结果；至少基于所述第一文本识别结果，调整所述文本识别模型的所述编码器的参数。2.根据权利要求1所述的方法，其特征在于，在所述至少基于所述第一文本识别结果，调整所述文本识别模型的所述编码器的参数之前，所述方法还包括：利用所述编码器对所述第一样本文本图像进行编码得到第二编码特征；利用所述文本识别模型的第一预测模块对所述第二编码特征进行预测，得到所述第一样本文本图像的第二文本识别结果；基于所述第二文本识别结果调整所述第一预测模块的参数；所述至少基于所述第一文本识别结果，调整所述文本识别模型的所述编码器的参数，包括：基于所述第一文本识别结果和所述第二文本识别结果，调整所述编码器的参数。3.根据权利要求2所述的方法，其特征在于，所述第一样本文本图像标注有真实文本识别结果；所述基于所述第一文本识别结果和所述第二文本识别结果，调整所述编码器的参数，以及所述基于所述第二文本识别结果调整所述第一预测模块的参数，包括：基于所述第一文本识别结果与所述真实文本识别结果之间的差异，得到第一识别损失，并基于所述第二文本识别结果与所述真实文本识别结果之间的差异，得到第二识别损失；基于所述第一识别损失和第二识别损失，调整所述编码器的参数；以及基于所述第二识别损失调整所述第一预测模块的参数。4.根据权利要求3所述的方法，其特征在于，所述对第一样本文本图像进行掩码处理，得到所述第一样本文本图像中的第一掩码区域图像的第一掩码特征和第一非掩码区域图像是利用位置掩码器执行；所述对所述第一掩码特征和所述第一编码特征进行预测，得到所述第一样本文本图像的第一文本识别结果的步骤是利用第二预测模块执行的；在所述基于所述第一文本识别结果与所述真实文本识别结果之间的差异，得到第一识别损失之后，所述方法还包括：基于所述第一识别损失，调整所述位置掩码器和所述第二预测模块的参数。5.根据权利要求1所述的方法，其特征在于，所述对第一样本文本图像进行掩码处理，得到所述第一样本文本图像中的第一掩码区域图像的第一掩码特征和第一非掩码区域图像是利用位置掩码器执行；在所述对第一样本文本图像进行掩码处理，得到所述第一样本文本图像中的第一掩码区域图像的第一掩码特征和第一非掩码区域图像之前，所述方法还包括：
利用第二样本文本图像对所述位置掩码器和所述编码器进行预训练，其中，所述第二样本文本图像为无标注图像。6.根据权利要求5所述的方法，其特征在于，所述利用第二样本文本图像对所述位置掩码器和所述编码器进行预训练，包括：利用所述位置掩码器对所述第二样本文本图像进行掩码处理，得到所述第二样本文本图像中的第二掩码区域图像的第二掩码特征和第二非掩码区域图像；利用所述编码器对所述第二样本文本图像的所述第二非掩码区域图像进行编码得到第二编码特征；利用解码器基于所述第二掩码特征和第二编码特征对所述第二掩码区域图像进行像素信息重建，得到所述第二掩码区域图像的重建像素信息；基于所述第二掩码区域图像的原始像素信息和所述重建像素信息，调整所述位置掩...

【专利技术属性】
技术研发人员：孟闯，曹莹，陈媛媛，熊剑平，
申请(专利权)人：浙江大华技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人