一种文本识别模型的训练方法、文本识别方法技术

技术编号:34853676 阅读:20 留言:0更新日期:2022-09-08 07:54
本公开提供一种文本识别模型的训练方法、文本识别方法,包括:将第一标注文本字符串输入第一分支模型,得到第一文本字符串编码,以及第一预测文本字符串,并获取第一损失值;将待识别文本图像样本输入第二分支模型,得到第一图像内容编码以及第二预测文本字符串,并得到第二文本字符串编码,基于第一文本字符串编码、第二文本字符串编码以及第二损失函数,获取第二损失值;基于第一标注文本字符串和第二预测文本字符串以及第三损失函数,获取第三损失值;基于第一损失值、第二损失值以及第三损失值得到总损失值,基于总损失值调整第一分支模型和第二分支模型的参数,直到收敛,确定第二分支模型为文本识别模型。二分支模型为文本识别模型。二分支模型为文本识别模型。

【技术实现步骤摘要】
一种文本识别模型的训练方法、文本识别方法


[0001]本公开涉及文本识别
,尤其涉及一种文本模型的训练方法、文本识别方法。

技术介绍

[0002]文本识别技术是从文本图像中识别出字符序列的技术,已经作为人工智能领域的重要分支广泛应用于各个领域。目前,文本识别技术主要包括两种:基于字符的方法和基于序列的方法,基于字符的方法是在标注单个字符的基础进行字符的检测、识别以及组合从而得到字符序列;基于序列的方法是将整个文本图像进行编码,然后按照行序列解码得到字符序列,然而,基于字符的方法标注成本高,基于序列的方法存在漏识别或多识别的问题。

技术实现思路

[0003]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种文本模型的训练方法、文本识别方法,可以解决现有文本识别技术标注成本高、识别错误率高的问题。
[0004]为了实现上述目的,本公开实施例提供的技术方案如下:
[0005]第一方面,本公开提供一种文本识别模型的训练方法,该方法包括:
[0006]将第一标注文本字符串输入第一分支模型,得到第一标注文本字符串对应的第一文本字符串编码,以及第一标注文本字符串对应的第一预测文本字符串,并基于第一标注文本字符串、第一预测文本字符串以及第一损失函数,获取第一损失值,第一标注文本字符串为待识别文本图像样本对应的人工标注的文本字符串;
[0007]将待识别文本图像样本输入第二分支模型,得到第一图像内容编码以及第二预测文本字符串,并基于第一图像内容编码得到第二文本字符串编码,基于第一文本字符串编码、第二文本字符串编码以及第二损失函数,获取第二损失值;
[0008]基于第一标注文本字符串和第二预测文本字符串以及第三损失函数,获取第三损失值;
[0009]基于第一损失值、第二损失值以及第三损失值得到总损失值,基于总损失值调整第一分支模型和第二分支模型的参数,直到收敛,确定第二分支模型为文本识别模型。
[0010]作为本公开实施例一种可选的实施方式,第二分支模型包括:第二编码部分和第二解码部分,其中,第二编码部分包括:第二特征提取部分、第二特征融合部分、背景纹理编码部分以及编码处理部分;第二解码部分包括:第二全连接层;
[0011]将待识别文本图像样本输入第二分支模型,得到第一图像内容编码以及第二预测文本字符串,包括:将待识别文本图像样本输入第二编码部分的第二特征提取部分,得到第二特征向量,并将第二特征向量经过第二特征融合部分,得到第一图像内容编码;将待识别文本图像样本输入第二编码部分的背景纹理编码部分,得到第一图像背景纹理编码;将第
一图像内容编码和第一图像背景纹理编码输入编码处理部分,得到第二文本字符串编码;将第二文本字符串编码输入第二全连接层,得到第二预测文本字符串。
[0012]作为本公开实施例一种可选的实施方式,第二编码部分还包括:第二两层双向长短期记忆网络LSTM;
[0013]将第二文本字符串编码输入全连接层,得到第二预测文本字符串之前,还包括:将第二文本字符串编码通过第二两层双向LSTM进行预处理。
[0014]作为本公开实施例一种可选的实施方式,第二分支模型还包括:嵌入层;
[0015]将待识别文本图像样本输入第二编码部分的第二特征提取部分,得到第二特征向量之前,还包括:将待识别文本图像样本进行切分,并通过嵌入层转化为向量。
[0016]作为本公开实施例一种可选的实施方式,将第一图像内容编码和第一图像背景纹理编码输入编码处理部分,得到第二文本字符串编码,包括:在编码处理部分,将第一图像内容编码减去第一图像背景纹理编码,得到第二文本字符串编码。
[0017]作为本公开实施例一种可选的实施方式,第一分支模型包括:第一编码部分和第一解码部分;其中,第一编码部分包括:第一特征提取部分、第一特征融合部分;第一解码部分包括:门控循环单元GRU层和第一全连接层;
[0018]将第一标注文本字符串输入第一分支模型,得到第一标注文本字符串对应的第一文本字符串编码,以及第一标注文本字符串对应的第一预测文本字符串,包括:将第一标注文本字符串输入第一编码部分的第一特征提取部分,得到第一特征向量将第一特征向量输入第一特征融合部分,得到第一标注文本字符串对应的第一文本字符串编码;将第一文本字符串编码输入第一解码部分的GRU和第一全连接层,得到第一预测文本字符串。
[0019]作为本公开实施例一种可选的实施方式,第一编码部分还包括:第一两层双向LSTM;
[0020]将第一文本字符串编码输入第一解码部分的GRU和第一全连接层,得到第一预测文本字符串之前,还包括:
[0021]将第一文本字符串编码通过第一两层双向LSTM进行预处理。
[0022]作为本公开实施例一种可选的实施方式,通过如下方式获取第一特征提取部分:
[0023]将字符串样本输入预设模型的第三编码部分,得到字符串编码,字符串编码包括:字符位置编码和字符内容编码;
[0024]将字符位置编码的随机位置进行掩码处理,将掩码处理之后的字符串编码输入预设模型的第三解码部分,得到预测字符串;
[0025]基于字符串样本、预测字符串以及交叉熵损失函数,调整预设模型的参数,直到收敛,确定第三编码部分为第一特征提取部分。
[0026]作为本公开实施例一种可选的实施方式,预设模型的第三编码部分包括:字符内容编码部分和位置编码部分,位置编码部分包括:第三双向LSTM网络。
[0027]第二方面,提供一种文本识别方法,该方法包括:
[0028]将待识别的文本图像输入文本识别模型中,得到第二预测文本字符串,其中,文本识别模型通过上述第一方面或或其任意一种可选的实施方式的文本识别模型的训练方法训练得到。
[0029]第三方面,提供一种文本识别模型的训练装置,该装置包括:
[0030]第一损失值获取模块,用于将第一标注文本字符串输入第一分支模型,得到第一标注文本字符串对应的第一文本字符串编码,以及第一标注文本字符串对应的第一预测文本字符串,并基于第一标注文本字符串、第一预测文本字符串以及第一损失函数,获取第一损失值,第一标注文本字符串为待识别文本图像样本对应的人工标注的文本字符串;
[0031]第二损失值获取模块,用于将待识别文本图像样本输入第二分支模型,得到第一图像内容编码以及第二预测文本字符串,并基于第一图像内容编码得到第二文本字符串编码,基于第一文本字符串编码、第二文本字符串编码以及第二损失函数,获取第二损失值;
[0032]第三损失值获取模块,用于基于第一标注文本字符串和第二预测文本字符串以及第三损失函数,获取第三损失值;
[0033]训练模块,用于基于第一损失值、第二损失值以及第三损失值得到总损失值,基于总损失值调整第一分支模型和第二分支模型的参数,直到收敛,确定第二分支模型为文本识别模型。
[0034]作为本公开实施例一种可选的实施方式,第二分支模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别模型的训练方法,其特征在于,包括:将第一标注文本字符串输入第一分支模型,得到所述第一标注文本字符串对应的第一文本字符串编码,以及所述第一标注文本字符串对应的第一预测文本字符串,并基于所述第一标注文本字符串、所述第一预测文本字符串以及第一损失函数,获取第一损失值,所述第一标注文本字符串为待识别文本图像样本对应的人工标注的文本字符串;将所述待识别文本图像样本输入第二分支模型,得到第一图像内容编码以及第二预测文本字符串,并基于所述第一图像内容编码得到第二文本字符串编码,基于所述第一文本字符串编码、所述第二文本字符串编码以及第二损失函数,获取第二损失值;基于所述第一标注文本字符串和所述第二预测文本字符串以及第三损失函数,获取第三损失值;基于所述第一损失值、第二损失值以及所述第三损失值得到总损失值,基于总损失值调整所述第一分支模型和所述第二分支模型的参数,直到收敛,确定所述第二分支模型为所述文本识别模型。2.根据权利要求1所述的方法,其特征在于,所述第二分支模型包括:第二编码部分和第二解码部分,其中,所述第二编码部分包括:第二特征提取部分、第二特征融合部分、背景纹理编码部分以及编码处理部分;所述第二解码部分包括:第二全连接层;所述将所述待识别文本图像样本输入第二分支模型,得到第一图像内容编码以及第二预测文本字符串,包括:将所述待识别文本图像样本输入所述第二编码部分的第二特征提取部分,得到第二特征向量,并将所述第二特征向量经过所述第二特征融合部分,得到所述第一图像内容编码;将所述待识别文本图像样本输入所述第二编码部分的背景纹理编码部分,得到所述第一图像背景纹理编码;将所述第一图像内容编码和所述第一图像背景纹理编码输入所述编码处理部分,得到所述第二文本字符串编码;将所述第二文本字符串编码输入所述第二全连接层,得到所述第二预测文本字符串。3.根据权利要求2所述的方法,其特征在于,所述第二编码部分还包括:第二两层双向长短期记忆网络LSTM;所述将所述第二文本字符串编码输入所述全连接层,得到所述第二预测文本字符串之前,还包括:将所述第二文本字符串编码通过所述第二两层双向LSTM进行预处理。4.根据权利要求2所述的方法,其特征在于,所述第二分支模型还包括:嵌入层;所述将所述待识别文本图像样本输入所述第二编码部分的第二特征提取部分,得到第二特征向量之前,还包括:将所述待识别文本图像样本进行切分,并通过所述嵌入层转化为向量。5.根据权利要求2所述的方法,其特征在于,所述将所述第一图像内容编码和所述第一图像背景纹理编码输入所述编码处理部分,得到所述第二文本字符串编码,包括:在所述编码处理部分,将所述第一图像内容编码减去所述第一图像背景纹理编码,得到所述第二文本字符串编码。6.根据权利要求1

5任一项所述的方法,其特征在于,所述第一分支模型包括:第一编
码部分和第一解码部分;其中,所述第一编码部分包括:第一特征提取部分、第一特征融合部分;所述第一解码部分包括:门控循环单元GRU层和第一全连接层;所述将第一标注文本字符串输入第一分支模型,得到所述第一标注文本字符串对应的第一文本字符串编码,以及所述第一标注文本字符串对应的第一预测文本字符串,包括:将所述第一标注文本字符串输入所述第一编码部分的第一特征提取部分,得到第一特征向量将所述第一特征向量输入第一特征融合部分,得到所述第一标注文本...

【专利技术属性】
技术研发人员:秦勇
申请(专利权)人:深圳市星桐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1