文本分离模型的训练方法、装置、电子设备和存储介质制造方法及图纸

技术编号:33273975 阅读:20 留言:0更新日期:2022-04-30 23:32
本申请涉及计算机技术领域,尤其涉及一种文本分离模型的训练方法、装置、电子设备和存储介质,用以提高套打文本识别准确率。其中,方法包括:由于本申请通过获取训练样本集,根据训练样本集中的训练样本,对待训练文本分离模型执行循环迭代训练,获得训练完毕的文本分离模型;在一次循环迭代训练中执行以下操作:从训练样本集中选取训练样本输入待训练文本分离模型,获得样本文本图像中文本实例的预测位置信息,和样本文本图像中像素点的预测文本实例类别;基于各预测文本实例类别和文本实例类别标签的差异,以及各预测位置信息和位置信息标签的差异,对文本分离模型进行参数调整,能够结合像素点与文本实例之间的联系,提高套打文本识别准确率。文本识别准确率。文本识别准确率。

【技术实现步骤摘要】
文本分离模型的训练方法、装置、电子设备和存储介质


[0001]本申请涉及计算机
,尤其涉及一种文本分离模型的训练方法、装置、电子设备和存储介质。

技术介绍

[0002]随着计算机技术的发展,常常会遇到需要对图像进行文本识别的情况。文本识别任务要求通过一定的图像处理来识别图像中的文本内容。其中,存在一种识别难度较大的文本图像,该文本图像的前景图像和背景图像重叠,如图1所示,称为套打文本图像,套打文本图像识别可应用于许多领域,例如,速算批改、票据识别等。
[0003]相关技术中,主要通过深度学习模型对需要识别的套打文本图像进行特征提取,再对提取到的特征进行像素级的分类,以获取图片中的文字。
[0004]但是,上述方法由于针对的是每个像素点的类别进行训练,每个像素点训练的相对独立,没有结合像素点与文本实例之间的联系,如图2所示,在各文本实例区分不明显时,容易将属于其他文本实例的部分归属于另一文本实例,识别正确率较低。因此,如何提高套打文本识别的准确率是目前亟待解决的问题。

技术实现思路

[0005]本申请实施例提供一种文本分离模型的训练方法、装置、电子设备和存储介质,用以提高套打文本识别的准确率。
[0006]本申请实施例提供的一种文本分离模型的训练方法,包括:获取训练样本集,每份训练样本包括:相应的样本文本图像,所述样本文本图像中各像素点各自的文本实例类别标签,所述样本文本图像中各文本实例各自的位置信息标签;根据所述训练样本集中的训练样本,对待训练的文本分离模型执行循环迭代训练,获得训练完毕的文本分离模型,以基于所述文本分离模型对待识别文本图像进行文本识别;在一次循环迭代训练中执行以下操作:从所述训练样本集中选取训练样本并输入待训练的文本分离模型,获得相应的样本文本图像中各文本实例各自的预测位置信息,和所述样本文本图像中各像素点各自的预测文本实例类别;基于各预测文本实例类别和相应的文本实例类别标签之间的差异,以及各预测位置信息和相应的位置信息标签之间的差异,对所述文本分离模型进行参数调整。
[0007]本申请实施例提供的一种文本分离模型的训练装置,包括:获取单元,用于获取训练样本集,每份训练样本包括:相应的样本文本图像,所述样本文本图像中各像素点各自的文本实例类别标签,所述样本文本图像中各文本实例各自的位置信息标签;训练单元,用于根据所述训练样本集中的训练样本,对待训练的文本分离模型执
行循环迭代训练,获得训练完毕的文本分离模型,以基于所述文本分离模型对待识别文本图像进行文本识别;在一次循环迭代训练中执行以下操作:从所述训练样本集中选取训练样本并输入待训练的文本分离模型,获得相应的样本文本图像中各文本实例各自的预测位置信息,和所述样本文本图像中各像素点各自的预测文本实例类别;基于各预测文本实例类别和相应的文本实例类别标签之间的差异,以及各预测位置信息和相应的位置信息标签之间的差异,对所述文本分离模型进行参数调整。
[0008]可选的,所述文本分离模型包括下采样网络和位置预测网络;所述训练单元具体用于:将选取的训练样本中的样本文本图像输入所述文本分离模型;基于所述下采样网络,对所述样本文本图像进行下采样特征提取,获得所述样本文本图像对应的至少一个下采样特征图;基于所述至少一个下采样特征图中的目标下采样特征图,以及所述位置预测网络,对所述样本文本图像中的文本实例进行边界预测,获得所述样本文本图像中包含的文本实例的预测位置信息,所述目标下采样特征图为所述下采样网络中最后一个下采样网络层输出的下采样特征图。
[0009]可选的,所述训练单元具体用于:将所述目标下采样特征图输入所述位置预测网络;基于所述位置预测网络以及所述目标下采样特征图中各像素单元,提取所述样本文本图像中包含的各文本实例各自的文本边界信息,其中,每个像素单元是通过下采样的方式,对所述样本文本图像中多个像素点进行融合得到的;基于所述各文本实例各自的文本边界信息的置信度,确定所述文本图像中包含的各文本实例各自的预测位置信息。
[0010]可选的,所述文本边界信息的置信度为:基于所述文本边界信息确定的第一文本框,与基于相应的位置信息标签确定的第二文本框之间的交并比。
[0011]可选的,所述文本分离模型还包括上采样网络;所述训练单元具体用于:基于所述至少一个下采样特征图,分别经由所述上采样网络进行上采样特征提取,获得所述样本文本图像的像素特征信息;其中,所述上采样网络中第一个上采样网络层的输入为:所述目标下采样特征图;所述上采样网络中剩余的各上采样网络层的输入为:上一个上采样网络层输出的上采样特征图和对应层级的下采样网络层输出的下采样特征图。
[0012]可选的,所述训练单元具体用于:基于所述各预测文本实例类别和相应的文本实例类别标签之间的差异,构建文本实例类别损失函数;基于所述各预测位置信息和相应的位置信息标签之间的差异,构建文本实例位置损失函数;基于所述文本实例类别损失函数,以及所述文本实例位置损失函数,对所述文本分离模型进行参数调整。
[0013]可选的,所述预测位置信息包括:各文本实例各自的预测文本框的预测中心位置坐标和预测文本框尺寸;所述位置信息标签包括:各文本实例各自的真实文本框的真实中
心位置坐标、真实文本框尺寸;所述训练单元具体用于:分别基于各文本实例对应的预测中心位置坐标和真实中心位置坐标之间的方差、预测文本框尺寸和真实文本框尺寸之间的方差,构建文本实例位置损失函数。
[0014]本申请实施例提供的一种电子设备,包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行上述任意一种文本分离模型的训练方法的步骤。
[0015]本申请实施例提供一种计算机可读存储介质,其包括计算机程序,当所述程序代码在电子设备上运行时,所述计算机程序用于使所述电子设备执行上述任意一种文本分离模型的训练方法的步骤。
[0016]本申请实施例提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中;当电子设备的处理器从计算机可读存储介质读取所述计算机程序时,所述处理器执行所述计算机程序,使得所述电子设备执行上述任意一种文本分离模型的训练方法的步骤。
[0017]本申请有益效果如下:本申请实施例提供了一种文本分离模型的训练方法、装置、电子设备和存储介质。由于本申请通过获取训练样本集,并根据训练样本集中的训练样本,对待训练的文本分离模型执行循环迭代训练,获得训练完毕的文本分离模型,以基于文本分离模型对待识别文本图像进行文本识别;在循环迭代训练过程中,基于各预测文本实例类别和相应的文本实例类别标签之间的差异,以及各预测位置信息和相应的位置信息标签之间的差异,对文本分离模型进行参数调整,能够对待识别文本图像进行像素级多分类以及对各文本实例进行位置信息预测,加强模型对文本实例特征的学习,降低模型分割类别错误率,提高套打文本分离的准确率,从而提高套打文本识别准确率。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分离模型的训练方法,其特征在于,该方法包括:获取训练样本集,每份训练样本包括:相应的样本文本图像,所述样本文本图像中各像素点各自的文本实例类别标签,所述样本文本图像中各文本实例各自的位置信息标签;根据所述训练样本集中的训练样本,对待训练的文本分离模型执行循环迭代训练,获得训练完毕的文本分离模型,以基于所述文本分离模型对待识别文本图像进行文本识别;在一次循环迭代训练中执行以下操作:从所述训练样本集中选取训练样本并输入待训练的文本分离模型,获得相应的样本文本图像中各文本实例各自的预测位置信息,和所述样本文本图像中各像素点各自的预测文本实例类别;基于各预测文本实例类别和相应的文本实例类别标签之间的差异,以及各预测位置信息和相应的位置信息标签之间的差异,对所述文本分离模型进行参数调整。2.如权利要求1所述的方法,其特征在于,所述文本分离模型包括下采样网络和位置预测网络;所述从所述训练样本集中选取训练样本并输入待训练的文本分离模型,获得相应的样本文本图像中各文本实例各自的预测位置信息,包括:将选取的训练样本中的样本文本图像输入所述文本分离模型;基于所述下采样网络,对所述样本文本图像进行下采样特征提取,获得所述样本文本图像对应的至少一个下采样特征图;基于所述至少一个下采样特征图中的目标下采样特征图,以及所述位置预测网络,对所述样本文本图像中的文本实例进行边界预测,获得所述样本文本图像中包含的文本实例的预测位置信息,所述目标下采样特征图为所述下采样网络中最后一个下采样网络层输出的下采样特征图。3.如权利要求2所述的方法,其特征在于,所述基于所述至少一个下采样特征图中的目标下采样特征图,以及所述位置预测网络,对所述样本文本图像中的文本实例进行边界预测,获得所述样本文本图像中包含的文本实例的预测位置信息,包括:将所述目标下采样特征图输入所述位置预测网络;基于所述位置预测网络以及所述目标下采样特征图中各像素单元,提取所述样本文本图像中包含的各文本实例各自的文本边界信息,其中,每个像素单元是通过下采样的方式,对所述样本文本图像中多个像素点进行融合得到的;基于所述各文本实例各自的文本边界信息的置信度,确定所述文本图像中包含的各文本实例各自的预测位置信息。4.如权利要求3所述的方法,其特征在于,所述文本边界信息的置信度为:基于所述文本边界信息确定的第一文本框,与基于相应的位置信息标签确定的第二文本框之间的交并比。5.如权利要求2所述的方法,其特征在于,所述文本分离模型还包括上采样网络;通过下列方式获得所述样本文本图像中各像素点各自的预测文本实例类别:基于所述至少一个下采样特征图,分别经由所述上采样网络进行上采样特征提取...

【专利技术属性】
技术研发人员:郑岩
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1