一种文本识别模型的训练方法、文本识别方法技术

技术编号：34853676 阅读：20 留言：0更新日期：2022-09-08 07:54

本公开提供一种文本识别模型的训练方法、文本识别方法，包括：将第一标注文本字符串输入第一分支模型，得到第一文本字符串编码，以及第一预测文本字符串，并获取第一损失值；将待识别文本图像样本输入第二分支模型，得到第一图像内容编码以及第二预测文本字符串，并得到第二文本字符串编码，基于第一文本字符串编码、第二文本字符串编码以及第二损失函数，获取第二损失值；基于第一标注文本字符串和第二预测文本字符串以及第三损失函数，获取第三损失值；基于第一损失值、第二损失值以及第三损失值得到总损失值，基于总损失值调整第一分支模型和第二分支模型的参数，直到收敛，确定第二分支模型为文本识别模型。二分支模型为文本识别模型。二分支模型为文本识别模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本识别模型的训练方法、文本识别方法

[0001]本公开涉及文本识别
，尤其涉及一种文本模型的训练方法、文本识别方法。

技术介绍

[0002]文本识别技术是从文本图像中识别出字符序列的技术，已经作为人工智能领域的重要分支广泛应用于各个领域。目前，文本识别技术主要包括两种：基于字符的方法和基于序列的方法，基于字符的方法是在标注单个字符的基础进行字符的检测、识别以及组合从而得到字符序列；基于序列的方法是将整个文本图像进行编码，然后按照行序列解码得到字符序列，然而，基于字符的方法标注成本高，基于序列的方法存在漏识别或多识别的问题。

技术实现思路

[0003]为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种文本模型的训练方法、文本识别方法，可以解决现有文本识别技术标注成本高、识别错误率高的问题。
[0004]为了实现上述目的，本公开实施例提供的技术方案如下：
[0005]第一方面，本公开提供一种文本识别模型的训练方法，该方法包括：
[0006]将第一标注文本字符串输入第一分支模型，得到第一标注文本字符串对应的第一文本字符串编码，以及第一标注文本字符串对应的第一预测文本字符串，并基于第一标注文本字符串、第一预测文本字符串以及第一损失函数，获取第一损失值，第一标注文本字符串为待识别文本图像样本对应的人工标注的文本字符串；
[0007]将待识别文本图像样本输入第二分支模型，得到第一图像内容编码以及第二预测文本字符串，并基于第一图像内容编码得到第二文本字符...

【技术保护点】

【技术特征摘要】
1.一种文本识别模型的训练方法，其特征在于，包括：将第一标注文本字符串输入第一分支模型，得到所述第一标注文本字符串对应的第一文本字符串编码，以及所述第一标注文本字符串对应的第一预测文本字符串，并基于所述第一标注文本字符串、所述第一预测文本字符串以及第一损失函数，获取第一损失值，所述第一标注文本字符串为待识别文本图像样本对应的人工标注的文本字符串；将所述待识别文本图像样本输入第二分支模型，得到第一图像内容编码以及第二预测文本字符串，并基于所述第一图像内容编码得到第二文本字符串编码，基于所述第一文本字符串编码、所述第二文本字符串编码以及第二损失函数，获取第二损失值；基于所述第一标注文本字符串和所述第二预测文本字符串以及第三损失函数，获取第三损失值；基于所述第一损失值、第二损失值以及所述第三损失值得到总损失值，基于总损失值调整所述第一分支模型和所述第二分支模型的参数，直到收敛，确定所述第二分支模型为所述文本识别模型。2.根据权利要求1所述的方法，其特征在于，所述第二分支模型包括：第二编码部分和第二解码部分，其中，所述第二编码部分包括：第二特征提取部分、第二特征融合部分、背景纹理编码部分以及编码处理部分；所述第二解码部分包括：第二全连接层；所述将所述待识别文本图像样本输入第二分支模型，得到第一图像内容编码以及第二预测文本字符串，包括：将所述待识别文本图像样本输入所述第二编码部分的第二特征提取部分，得到第二特征向量，并将所述第二特征向量经过所述第二特征融合部分，得到所述第一图像内容编码；将所述待识别文本图像样本输入所述第二编码部分的背景纹理编码部分，得到所述第一图像背景纹理编码；将所述第一图像内容编码和所述第一图像背景纹理编码输入所述编码处理部分，得到所述第二文本字符串编码；将所述第二文本字符串编码输入所述第二全连接层，得到所述第二预测文本字符串。3.根据权利要求2所述的方法，其特征在于，所述第二编码部分还包括：第二两层双向长短期记忆网络LSTM；所述将所述第二文本字符串编码输入所述全连接层，得到所述第二预测文本字符串之前，还包括：将所述第二文本字符串编码通过所述第二两层双向LSTM进行预处理。4.根据权利要求2所述的方法，其特征在于，所述第二分支模型还包括：嵌入层；所述将所述待识别文本图像样本输入所述第二编码部分的第二特征提取部分，得到第二特征向量之前，还包括：将所述待识别文本图像样本进行切分，并通过所述嵌入层转化为向量。5.根据权利要求2所述的方法，其特征在于，所述将所述第一图像内容编码和所述第一图像背景纹理编码输入所述编码处理部分，得到所述第二文本字符串编码，包括：在所述编码处理部分，将所述第一图像内容编码减去所述第一图像背景纹理编码，得到所述第二文本字符串编码。6.根据权利要求1
‑
5任一项所述的方法，其特征在于，所述第一分支模型包括：第一编
码部分和第一解码部分；其中，所述第一编码部分包括：第一特征提取部分、第一特征融合部分；所述第一解码部分包括：门控循环单元GRU层和第一全连接层；所述将第一标注文本字符串输入第一分支模型，得到所述第一标注文本字符串对应的第一文本字符串编码，以及所述第一标注文本字符串对应的第一预测文本字符串，包括：将所述第一标注文本字符串输入所述第一编码部分的第一特征提取部分，得到第一特征向量将所述第一特征向量输入第一特征融合部分，得到所述第一标注文本...

【专利技术属性】
技术研发人员：秦勇，
申请(专利权)人：深圳市星桐科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人