文本分离模型的训练方法、装置、电子设备和存储介质制造方法及图纸

技术编号：33273975 阅读：20 留言：0更新日期：2022-04-30 23:32

本申请涉及计算机技术领域，尤其涉及一种文本分离模型的训练方法、装置、电子设备和存储介质，用以提高套打文本识别准确率。其中，方法包括：由于本申请通过获取训练样本集，根据训练样本集中的训练样本，对待训练文本分离模型执行循环迭代训练，获得训练完毕的文本分离模型；在一次循环迭代训练中执行以下操作：从训练样本集中选取训练样本输入待训练文本分离模型，获得样本文本图像中文本实例的预测位置信息，和样本文本图像中像素点的预测文本实例类别；基于各预测文本实例类别和文本实例类别标签的差异，以及各预测位置信息和位置信息标签的差异，对文本分离模型进行参数调整，能够结合像素点与文本实例之间的联系，提高套打文本识别准确率。文本识别准确率。文本识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
文本分离模型的训练方法、装置、电子设备和存储介质

[0001]本申请涉及计算机
，尤其涉及一种文本分离模型的训练方法、装置、电子设备和存储介质。

技术介绍

[0002]随着计算机技术的发展，常常会遇到需要对图像进行文本识别的情况。文本识别任务要求通过一定的图像处理来识别图像中的文本内容。其中，存在一种识别难度较大的文本图像，该文本图像的前景图像和背景图像重叠，如图1所示，称为套打文本图像，套打文本图像识别可应用于许多领域，例如，速算批改、票据识别等。
[0003]相关技术中，主要通过深度学习模型对需要识别的套打文本图像进行特征提取，再对提取到的特征进行像素级的分类，以获取图片中的文字。
[0004]但是，上述方法由于针对的是每个像素点的类别进行训练，每个像素点训练的相对独立，没有结合像素点与文本实例之间的联系，如图2所示，在各文本实例区分不明显时，容易将属于其他文本实例的部分归属于另一文本实例，识别正确率较低。因此，如何提高套打文本识别的准确率是目前亟待解决的问题。

技术实现思路

[0005]本申请实施例提供一种文本分离模型的训练方法、装置、电子设备和存储介质，用以提高套打文本识别的准确率。
[0006]本申请实施例提供的一种文本分离模型的训练方法，包括：获取训练样本集，每份训练样本包括：相应的样本文本图像，所述样本文本图像中各像素点各自的文本实例类别标签，所述样本文本图像中各文本实例各自的位置信息标签；根据所述训练样本集中的训练样本，对待训练的文本分离模型执行循环迭代训...

【技术保护点】

【技术特征摘要】
1.一种文本分离模型的训练方法，其特征在于，该方法包括：获取训练样本集，每份训练样本包括：相应的样本文本图像，所述样本文本图像中各像素点各自的文本实例类别标签，所述样本文本图像中各文本实例各自的位置信息标签；根据所述训练样本集中的训练样本，对待训练的文本分离模型执行循环迭代训练，获得训练完毕的文本分离模型，以基于所述文本分离模型对待识别文本图像进行文本识别；在一次循环迭代训练中执行以下操作：从所述训练样本集中选取训练样本并输入待训练的文本分离模型，获得相应的样本文本图像中各文本实例各自的预测位置信息，和所述样本文本图像中各像素点各自的预测文本实例类别；基于各预测文本实例类别和相应的文本实例类别标签之间的差异，以及各预测位置信息和相应的位置信息标签之间的差异，对所述文本分离模型进行参数调整。2.如权利要求1所述的方法，其特征在于，所述文本分离模型包括下采样网络和位置预测网络；所述从所述训练样本集中选取训练样本并输入待训练的文本分离模型，获得相应的样本文本图像中各文本实例各自的预测位置信息，包括：将选取的训练样本中的样本文本图像输入所述文本分离模型；基于所述下采样网络，对所述样本文本图像进行下采样特征提取，获得所述样本文本图像对应的至少一个下采样特征图；基于所述至少一个下采样特征图中的目标下采样特征图，以及所述位置预测网络，对所述样本文本图像中的文本实例进行边界预测，获得所述样本文本图像中包含的文本实例的预测位置信息，所述目标下采样特征图为所述下采样网络中最后一个下采样网络层输出的下采样特征图。3.如权利要求2所述的方法，其特征在于，所述基于所述至少一个下采样特征图中的目标下采样特征图，以及所述位置预测网络，对所述样本文本图像中的文本实例进行边界预测，获得所述样本文本图像中包含的文本实例的预测位置信息，包括：将所述目标下采样特征图输入所述位置预测网络；基于所述位置预测网络以及所述目标下采样特征图中各像素单元，提取所述样本文本图像中包含的各文本实例各自的文本边界信息，其中，每个像素单元是通过下采样的方式，对所述样本文本图像中多个像素点进行融合得到的；基于所述各文本实例各自的文本边界信息的置信度，确定所述文本图像中包含的各文本实例各自的预测位置信息。4.如权利要求3所述的方法，其特征在于，所述文本边界信息的置信度为：基于所述文本边界信息确定的第一文本框，与基于相应的位置信息标签确定的第二文本框之间的交并比。5.如权利要求2所述的方法，其特征在于，所述文本分离模型还包括上采样网络；通过下列方式获得所述样本文本图像中各像素点各自的预测文本实例类别：基于所述至少一个下采样特征图，分别经由所述上采样网络进行上采样特征提取...

【专利技术属性】
技术研发人员：郑岩，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人