文本识别模型的训练方法、文本识别方法及装置制造方法及图纸

技术编号：33251134 阅读：29 留言：0更新日期：2022-04-27 18:13

本公开提供了一种文本识别模型的训练方法、文本识别方法及装置，涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域，可应用于光学字符识别等场景。方案为：对获取到的第一样本图像中的部分图像进行掩码预测，得到与第一样本图像对应的预测完整图像，对获取到的第二样本图像中的部分文本进行掩码预测，得到与部分文本对应的预测文本内容，根据预测完整图像和预测文本内容训练得到预训练模型，并根据预训练模型生成文本识别模型，文本识别模型用于对待识别图像进行文本识别，使得预训练模型学习到较强的图像视觉推理能力和文本语义推理能力，从而当基于预训练模型生成的文本识别模型进行文本识别时，提高文本识别的准确性和可靠性。性和可靠性。性和可靠性。

全部详细技术资料下载

【技术实现步骤摘要】
文本识别模型的训练方法、文本识别方法及装置

[0001]本公开涉及人工智能（Artificial Intelligence，AI）
，具体为深度学习、计算机视觉
，可应用于光学字符识别（Optical Character Recognition，OCR）等场景，尤其涉及一种文本识别模型的训练方法、文本识别方法及装置。

技术介绍

[0002]OCR技术在教育、金融、医疗、交通和保险等各行各业都取到了广泛的关注和应用。
[0003]在相关技术中，可以结合OCR技术和深度学习构建文本识别模型，以基于文本识别模型对图像进行文本识别。
[0004]然而，文本识别模型通常依赖于视觉信息，以基于视觉信息辨别图像中的文本内容，存在识别的准确性偏低的弊端。

技术实现思路

[0005]本公开提供了一种用于提高文本识别的可靠性的文本识别模型的训练方法、文本识别方法及装置。
[0006]根据本公开的第一方面，提供了一种文本识别模型的训练方法，包括：对获取到的第一样本图像中的部分图像进行掩码预测，得...

【技术保护点】

【技术特征摘要】
1.一种文本识别模型的训练方法，其特征在于，包括：对获取到的第一样本图像中的部分图像进行掩码预测，得到与所述第一样本图像对应的预测完整图像；对获取到的第二样本图像中的部分文本进行所述掩码预测，得到与所述部分文本对应的预测文本内容；根据所述预测完整图像和所述预测文本内容训练得到预训练模型，并根据所述预训练模型生成文本识别模型，其中，所述文本识别模型用于对待识别图像进行文本识别。2.根据权利要求1所述的方法，其中，所述掩码预测包括：随机遮盖目标对象中的部分对象；根据所述目标对象中未被遮盖的对象，对所述目标对象中被遮盖的部分对象进行预测，得到预测结果；其中，若所述目标对象为第一样本图像，则所述目标对象中的部分对象为部分图像，所述预测结果为所述预测完整图像；若所述目标对象为第二样本图像，则所述目标对象中的部分对象为部分文本，所述预测结果为所述预测文本内容。3.根据权利要求2所述的方法，其中，根据所述目标对象中未被遮盖的对象，对所述目标对象中被遮盖的部分对象进行预测，得到预测结果，包括：提取所述目标对象中未被遮盖的对象对应的对象特征，得到第一对象特征；根据所述第一对象特征，对所述目标对象中被遮盖的部分对象进行预测，得到所述预测结果；其中，若所述目标对象为第一样本图像，则所述第一对象特征为第一视觉特征；若所述目标对象为第二样本图像，则所述第一对象特征为第一语义特征。4.根据权利要求3所述的方法，其中，所述目标对象为第一样本图像，所述第一对象特征为第一视觉特征；所述根据所述第一对象特征，对所述目标对象中被遮盖的部分对象进行预测，得到所述预测结果，包括根据所述第一视觉特征，预测所述第一样本图像中被遮盖的部分图像对应的视觉特征，得到第二视觉特征；根据所述第二视觉特征，确定所述第一样本图像中被遮盖的部分图像；根据所述第一样本图像中未被遮盖的图像、以及确定出的所述第一样本图像中被遮盖的部分图像，生成所述预测完整图像。5.根据权利要求3或4所述的方法，其中，所述目标对象为第二样本图像，所述第一对象特征为第一语义特征；所述根据所述第一对象特征，对所述目标对象中被遮盖的部分对象进行预测，得到所述预测结果，包括：根据所述第一语义特征，预测所述第二样本图像中被遮盖的部分文本对应的语义特征，得到第二语义特征；根据所述第二语义特征，生成所述预测文本内容。6.根据权利要求1
‑
4任一项所述的方法，其中，根据所述预训练模型生成文本识别模型，包括：获取待识别任务和训练图像，其中，所述训练图像中包括文本；根据所述待识别任务和所述训练图像，对所述预训练模型进行训练，得到所述文本识
别模型。7.根据权利要求6所述的方法，其中，根据所述待识别任务和所述训练图像，对所述预训练模型进行训练，得到所述文本识别模型，包括：将所述训练图像输入至所述预训练模型，得到所述训练图像对应的多模态特征图；根据所述待识别任务和所述多模态特征图，生成所述文本识别模型。8.根据权利要求7所述的方法，其中，根据所述待识别任务和所述多模态特征图，生成所述文本识别模型，包括：根据所述多模态特征图，预测所述训练图像在所述待识别任务下的预测识别结果；根据所述训练图像预设的真实识别结果、以及所述预测识别结果，构建所述文本识别模型。9.一种文本识别方法，其特征在于，包括：获取待识别图像，其中，所述待识别图像中包括文本；基于预先训练的文本识别模型对所述待识别图像进行文本识别，得到所述待识别图像中的文本内容；其中，所述文本识别模型是基于如权利要求1
‑
8任一项所述的方法得到的。10.根据权利要求9所述的方法，其中，基于预先训练的文本识别模型对所述待识别图像进行文本识别，得到所述待识别图像中的文本内容，包括：根据所述文本识别模型确定所述待识别图像的多模态特征图，并根据所述多模态特征图确定所述待识别图像中的文本内容；其中，所述待识别图像的多模态特征图用于表征：所述待识别图像的视觉特征和语义特征。11.一种文本识别模型的训练装置，其特征在于，包括：预测单元，用于对获取到的第一样本图像中的部分图像进行掩码预测，得到与所述第一样本图像对应的预测完整图像；所述预测单元还用于，对获取到的第二样本图像中的部分文本进行所述掩码预测，得到与所述部分文本对应的预测文本内容；训练单元，用于根据所述预测完整...

【专利技术属性】
技术研发人员：章成全，庾悦晨，李煜林，曹健健，钦夏孟，姚锟，韩钧宇，刘经拓，丁二锐，王井东，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人