【技术实现步骤摘要】
文本识别模型的训练方法、文本识别方法、装置和设备
[0001]本申请实施例涉及计算机
,特别涉及一种文本识别模型的训练方法、文本识别方法、装置和设备。
技术介绍
[0002]随着计算机技术的不断发展,图像识别技术越来越重要,而文本识别技术作为图像识别技术的一个分支,应用范围越来越广。文本识别技术是一种对文本图像进行图像识别,以识别出文本图像中的文本的技术。
[0003]相关技术中,可以基于样本文本图像训练得到文本识别模型,利用文本识别模型对目标文本图像进行文本识别。在基于样本文本图像训练文本识别模型时,一方面,将样本文本图像输入至神经网络模型,由神经网络模型确定样本文本图像的预测结果,该预测结果是通过预测得到的样本文本图像中的各个字符。另一方面,获取样本文本图像的标注结果,该标注结果是通过标注得到的样本文本图像中的各个字符。之后,利用预测结果和标注结果,对神经网络模型进行调整,得到文本识别模型。
[0004]上述技术中,仅利用样本文本图像的预测结果和标注结果训练得到文本识别模型,导致文本识别模型的准确性 ...
【技术保护点】
【技术特征摘要】
1.一种文本识别模型的训练方法,其特征在于,所述方法包括:获取样本文本图像和所述样本文本图像的标注结果,所述标注结果是通过标注得到的所述样本文本图像中的各个字符;基于第一网络模型获取所述样本文本图像的视觉特征,所述样本文本图像的视觉特征用于表征所述样本文本图像中各个字符的外形和位置;基于所述第一网络模型和所述样本文本图像的视觉特征,获取所述样本文本图像的第一预测结果,所述第一预测结果是由所述第一网络模型通过预测得到的所述样本文本图像中的各个字符;基于第二网络模型和所述样本文本图像的视觉特征,获取所述样本文本图像的第二预测结果,所述第二预测结果是由所述第二网络模型通过预测得到的所述样本文本图像中的各个字符;基于所述第一预测结果、所述第二预测结果和所述标注结果,对所述第一网络模型进行调整,得到文本识别模型。2.根据权利要求1所述的方法,其特征在于,所述基于第一网络模型获取所述样本文本图像的视觉特征,包括:基于所述第一网络模型获取所述样本文本图像中各个字符的外形特征以及所述样本文本图像中各个字符的位置特征;基于所述样本文本图像中各个字符的外形特征和所述样本文本图像中各个字符的位置特征,确定所述样本文本图像的视觉特征。3.根据权利要求2所述的方法,其特征在于,所述基于所述样本文本图像中各个字符的外形特征和所述样本文本图像中各个字符的位置特征,确定所述样本文本图像的视觉特征,包括:对于所述样本文本图像中的任一个字符,将所述样本文本图像中各个字符的外形特征和所述样本文本图像中各个字符的位置特征进行融合,得到所述任一个字符的第一融合特征;基于所述样本文本图像中各个字符的第一融合特征,确定所述样本文本图像的视觉特征。4.根据权利要求2所述的方法,其特征在于,所述基于所述样本文本图像中各个字符的外形特征和所述样本文本图像中各个字符的位置特征,确定所述样本文本图像的视觉特征,包括:对于所述样本文本图像中的任一个字符,将所述任一个字符对应的至少一个相邻字符的外形特征和所述至少一个相邻字符的位置特征进行融合,得到所述任一个字符的第二融合特征;基于所述样本文本图像中各个字符的第二融合特征,确定所述样本文本图像的视觉特征。5.根据权利要求1所述的方法,其特征在于,所述基于所述第一网络模型和所述样本文本图像的视觉特征,获取所述样本文本图像的第一预测结果,包括:对于所述样本文本图像中的任一个字符,基于所述第一网络模型和所述样本文本图像的视觉特征,确定所述任一个字符属于各个参考字符的第一概率;
从所述任一个字符属于各个参考字符的第一概率中确定第一最大概率;将所述第一最大概率对应的参考字符,确定为所述任一个字符对应的由所述第一网络模型通过预测得到的字符。6.根据权利要求1所述的方法,其特征在于,所述基于第二网络模型和所述样本文本图像的视觉特征,获取所述样本文本图像的第二预测结果,包括:基于所述第二网络模型和所述标注结果,确定所述样本文本图像中各个字符的语义特征;基于所述第一网络模型获取所述样本文本图像中各个字符的位置特征;基于所述样本文本图像的视觉特征、所述样本文本图像中各个字符的语义特征和所述样本文本图像中各个字符的位置特征,获取所述样本文本图像的第二预测结果。7.根据权利要求6所述的方法,其特征在于,所述基于所述样本文本图像的视觉特征、所述样本文本图像中各个字符的语义特征和所述样本文本图像中各个字符的位置特征,获取所述样本文本图像的第二预测结果,包括:基于所述样本文本图像中各个字符的位置特征和所述样本文本图像中各个字符的语义特征,确定所述样本文本图像中各个字符的第三融合特征;基于所述样本文本图像的视觉特征和所述样本文本图像中各个字符的第三融合特征,获取所述样本文本图像的第二预测结果。8.根据权利要求7所述的方法,其特征在于,所述基于所述样本文本图像中各个字符的位置特征和所述样本文本图像中各个字符的语义特征,确定所述样本文本图像中各个字符的第三融合特征,包括:对于所述样本文本图像中的任一个字符,将所述任一个字符的语义特征、所述任一个字符的位置特征、所述任一个字符之前的各个字符的语义特征、所述任一个字符之前的各个字符的位置特征进行融合,得到所述任一个字符的第三融合特征。9.根据权利要求7所述的方法,其特征在于,所述基于所述样本文本图像的视觉特征和所述样本文本图像中各个字符的第三融合特征,获取所述样本文本图像的第二预测结果,包括:对于所述样本文本图像中的任一个字符,将所述样本文本图像的视觉特征和所述样本文本图像中各个字符的第三融合特征进行融合,得到所述任一个字符的第四融合特征;基于所述样本文本图像中各个字符的第四融合特征,获取所述样本文本图像的第二预测结果。10.根据权利要求9所述的方法,其特征在于,所述基于所述样本文本图像中各个字符的第四融合特征,...
【专利技术属性】
技术研发人员:张慧,黄珊,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。