文本识别模型训练方法、文本识别方法、装置及存储介质制造方法及图纸

技术编号：37717341 阅读：8 留言：0更新日期：2023-06-02 00:14

本公开提供了一种文本识别模型训练方法、文本识别方法、装置及存储介质。本公开涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可应用于光学字符识别等场景。具体实现方案为：获取第一训练数据；将第一训练数据输入待训练的目标模型；获取目标模型基于第一训练数据输出的预测文本和预测掩码特征；基于预测文本、预测掩码特征、真实文本和被掩码掉的原始特征，训练目标模型，得到文本识别模型。根据本公开的方案，能够提高文本识别的准确性。别的准确性。别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
文本识别模型训练方法、文本识别方法、装置及存储介质

[0001]本公开涉及人工智能
，具体为深度学习、图像处理、计算机视觉
，可应用于光学字符识别等场景。

技术介绍

[0002]近些年来，文字识别技术飞速发展。常见的通用场景，很多开源算法或者论文算法基本可以达到可用状态。然而，对于一些版式差异不同、形态变化较大、应用场景特点明显的多场景多分布输入，给文字识别系统带来了巨大挑战。此外，对于银行、保险公司、车管所、事业单位等具有很多卡证、票据、单据识别需求的单位，需要大量重复人工操作，包括拍照、审核、信息录入、系统比对等，也会出现场景较多、分布不均匀等问题，导致文字识别准确率较低。

技术实现思路

[0003]本公开提供了一种文本识别模型训练方法、文本识别方法、装置及存储介质。
[0004]根据本公开的第一方面，提供了一种文本识别模型训练方法，包括：
[0005]获取第一训练数据；
[0006]将第一训练数据输入待训练的目标模型；
[0007]获取目标模型基于第一训练数据输出的预测文本和预测掩码特征；
[0008]基于预测文本、预测掩码特征、真实文本和被掩码掉的原始特征，训练目标模型，得到文本识别模型。
[0009]根据本公开的第二方面，提供了一种文本识别方法，包括：
[0010]获取待识别图像；
[0011]获取待识别图像的K个图像，K个图像是对待识别图像做行级别划分后得到的，K为不小于1的整数；
[0012]将K个图像输...

【技术保护点】

【技术特征摘要】
1.一种文本识别模型训练方法，包括：获取第一训练数据；将所述第一训练数据输入待训练的目标模型；获取所述目标模型基于所述第一训练数据输出的预测文本和预测掩码特征；基于所述预测文本、所述预测掩码特征、真实文本和被掩码掉的原始特征，训练所述目标模型，得到文本识别模型。2.根据权利要求1所述的方法，其中，所述基于所述预测文本、所述预测掩码特征、真实文本和被掩码掉的原始特征，训练所述目标模型，包括：基于所述预测掩码特征与所述被掩码掉的原始特征构建第一损失函数；基于所述预测文本与所述真实文本构建第二损失函数；基于所述第一损失函数和所述第二损失函数，训练所述目标模型。3.根据权利要求1所述的方法，其中，所述获取第一训练数据，包括：收集第一原始图像；识别所述第一原始图像得到所述第一原始图像上的真实文本；对所述第一原始图像做行级别划分，得到所述第一原始图像的M个图像，M为不小于1的整数，所述第一训练数据至少包括所述第一原始图像的M个图像和所述第一原始图像上的真实文本。4.根据权利要求1所述的方法，其中，所述目标模型包括第一编码器、解码器和预测器，其中，获取所述目标模型基于所述第一训练数据输出的预测文本，包括：利用所述第一编码器提取完整图像特征；利用所述解码器对所述完整图像特征进行解码，得到待识别特征；利用所述预测器对所述待识别特征进行预测，得到所述预测文本。5.根据权利要求4所述的方法，其中，所述目标模型还包括第二编码器，所述第二编码器与所述解码器连接，其中，获取所述目标模型基于所述第一训练数据输出的预测掩码特征，包括：根据掩码率对所述第二编码器提取的图像特征进行掩码处理；利用所述解码器对掩码处理后的图像特征进行解码，得到所述预测掩码特征。6.根据权利要求1至5任一项所述的方法，还包括：获取第二训练数据；将所述第二训练数据输入待训练模型；获取所述待训练模型基于所述第二训练数据输出的重构图像；基于所述重构图像构建无监督损失函数；基于所述无监督损失函数训练所述待训练模型，得到所述目标模型。7.根据权利要求6所述的方法，其中，所述获取第二训练数据，包括：收集第二原始图像；对所述第二原始图像做行级别划分，得到所述第二原始图像的N个图像，N为不小于1的整数，所述第二训练数据包括所述第二原始图像的N个图像。8.一种文本识别方法，包括：获取待识别图像；
获取所述待识别图像的K个图像，所述K个图像是对所述待识别图像做行级别划分后得到的，K为不小于1的整数；将所述K个图像输入文本识别模型，获得所述文本识别模型根据所述K个图像输出的所述待识别图像的预测文本，所述文本识别模型通过权利要求1至7中任一项所述的方法训练获得。9.根据权利要求8所述的方法，其中，所述获得所述文本识别模型根据所述K个图像输出的所述待识别图像的预测文本，包括：获取基于所述K个图像得到的完整图像特征；获取基于所述K个图像得到的预测掩码特征；基于所述完整图像特征和所述预测掩码特征，得到所述待识别图像的所述预测文本。10.根据权利要求9所述的方法，其中，所述文本识别模型包括第一编码器、第二编码器和解码器，所述第一编码器和所述第二编码器分别与所述解码器连接；其中，所述获取基于所述K个图像得到的完整图像特征，包括：获取通过所述第一编码器基于所述K个图像提取到的完整图像特征；所述获取基于所述K个图像得到的预测掩码特征，包括：根据掩码率对所述第二编码器提取的图像特征进行掩码处理；利用所述第二解码器对掩码处理后的图像特征进行解码，得到所述预测掩码特征。11.一种文本识别模型训练装置，包括：第一获取模块，用于获取第一训练数据；第一输入模块，用于将所述第一训练数据输入待训练的目标模型；第二获取模块，用于获取所述目标模型基于所述第一训练数据输出的预测文本和预测掩码特征；第一训练模块，用于基于所述预测文本、所述预测掩码特征、真实文本和被掩码掉的原始特征，训练所述目标模型，得到文本识别模型。12.根据权利要求11所述的装置，其中，所述第一训练模块，包括：第一构建子模块，用于基于所述预...

【专利技术属性】
技术研发人员：刘珊珊，吕鹏原，乔美娜，吴亮，章成全，姚锟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人