文本识别模型的训练方法和装置、存储介质及电子设备制造方法及图纸

技术编号：38936524 阅读：9 留言：0更新日期：2023-09-25 09:38

本申请公开了一种文本识别模型的训练方法和装置、存储介质及电子设备，可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。该方法包括：确定第i轮训练使用的样本图像的图像表征向量序列，样本图像包括N个局部图像；根据图像表征向量序列，确定初始结果表征向量；根据初始结果表征向量，确定与N个局部图像对应的N个最终识别结果；调整初始结果表征向量中用于表征该局部图像的初始识别结果、维度为1

全部详细技术资料下载

【技术实现步骤摘要】
文本识别模型的训练方法和装置、存储介质及电子设备

[0001]本申请涉及计算机
，具体而言，涉及一种文本识别模型的训练方法和装置、存储介质及电子设备。

技术介绍

[0002]在文本识别场景中，通常采用文本识别模型中的编码器对样本图像进行编码处理，得到用于表征样本图像的图像表征向量，然后对图像表征向量经过解码处理，得到每个图像表征向量的预测结果。
[0003]然而，在文本识别模型训练的过程中，通常会出现正负样本数量不均衡的问题，例如，在文本识别过程中，非空白识别结果对应的图像表征向量为检测中的正样本，空白识别结果对应的图像表征向量为检测中的负样本。当目标文本为中文时，每个字符书写复杂、且字符呈现方块状，每个字符所占区域的宽高边比较大，字符密度较低。因此，空白识别结果对应的图像表征向量的数量远超过非空白识别结果对应的图像表征向量的数量。
[0004]在此情况下，需要耗费大量的时间和大量的资源去训练置信度较高的空白识别结果对应的图像表征向量，导致了训练非空白识别结果对应的图像表征向量的时间下降，这就使得训练过程中损失函数的收敛效率明显降低，造成了文本识别模型的训练过程中出现的效率较低的技术问题。
[0005]针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

[0006]本申请实施例提供了一种文本识别模型的训练方法和装置、存储介质及电子设备，以至少解决文本识别模型的训练过程中出现的效率较低的技术问题。
[0007]根据本申请实施例的一个方面，提供了一种文本识别模...

【技术保护点】

【技术特征摘要】
1.一种文本识别模型的训练方法，其特征在于，包括：通过以下步骤对待训练的文本识别模型执行第i轮训练，其中，i为大于或等于1的正整数：确定第i轮训练使用的样本图像的图像表征向量序列，其中，所述图像表征向量序列包括N个图像表征向量，所述N个图像表征向量中的每个图像表征向量用于表征所述样本图像中的N 个局部图像中的一个，N和K为大于或等于2的正整数；根据所述图像表征向量序列，确定维度为N
×
K的初始结果表征向量，其中，所述初始结果表征向量中的每个维度为1
×
K的向量用于表征一个局部图像的初始识别结果为预设的K个识别结果中的每个识别结果的概率，所述K个识别结果包括K
‑
1个预设字符和空识别结果，所述空识别结果表示识别不到字符；根据所述初始结果表征向量，确定与所述N 个局部图像对应的N个最终识别结果，其中，每个局部图像对应的最终识别结果是所述K个识别结果中概率最大的识别结果；对于所述最终识别结果为所述空识别结果的局部图像，调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1
×
K的向量，以下调该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率，调整后的所述初始结果表征向量为目标结果表征向量；根据所述目标结果表征向量，确定所述第i轮训练对应的损失值，在所述第i轮训练对应的损失值不满足预设的收敛条件的情况下，对所述待训练的文本识别模型中的参数进行调整。2.根据权利要求1所述的方法，其特征在于，所述对于所述最终识别结果为所述空识别结果的局部图像，调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1
×
K的向量，以下调该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率，包括：对于所述最终识别结果为所述空识别结果的局部图像，根据该局部图像为所述空白识别结果的概率调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1
×
K的向量，以下调该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率，下调后该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率，与调整前该局部图像为所述空白识别结果的概率成反比。3.根据权利要求1所述的方法，其特征在于，所述对于所述最终识别结果为所述空识别结果的局部图像，调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1
×
K的向量，以下调该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率，包括：对于所述最终识别结果为所述空识别结果的局部图像，根据N个最终识别结果中非空识别结果的占比调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1
×
K的向量，以下调该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率，下调后该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率，与所述占比成正比。4.根据权利要求1所述的方法，其特征在于，所述对于所述最终识别结果为所述空识别结果的局部图像，调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、
维度为1
×
K的向量，以下调该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率，包括：对于所述最终识别结果为所述空识别结果的局部图像，根据该局部图像为所述空白识别结果的概率和所述非空识别结果的占比调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1
×
K的向量，以下调该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率，下调后该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率，与调整前该局部图像为所述空白识别结果的概率成反比、且与所述占比成正比。5.根据权利要求1所述的方法，其特征在于，所述对于所述最终识别结果为所述空识别结果的局部图像，调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1
×
K的向量，包括：在所述最终识别结果为所述空识别结果的局部图像为R个局部图像的情况下，调整所述初始结果表征向量中用于表征所述R个局部图像中的Q个局部图像的初始识别结果的、Q个维度为1
×
K的向量，以下调所述Q个局部图像的初始识别结果为Q
×
K个识别结果中每个识别结果的概率，其中，R为大于或等于1、且小于或等于N的正整数，Q为大于或等于1、且小于或等于R的正整数。6.根据权利要求4所述的方法，其特征在于，所述根据该局部图像为所述空白识别结果的概率和所述非空识别结果的占比调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1
×
K的向量，包括：在所述N个最终识别结果中的R个最终识别结果为所述空识别结果的情况下，通过以下步骤将所述R个最终识别结果中的第j个最终识别结果对应的维度为1
×
K的向量中的K个概率下调，并得到K个下调后的概率：将所述K个下调后的概率中的第s个下调后的概率确定为等于所述第j个最终识别结果对应的维度为1
×
K的向量中的第s个概率、（1
‑
所述第j个最终识别结果对应的维度为1
×
K的向量中的空识别结果对应的概率）以及所述占比三者之间的乘积，其中，所述第s个概率为所述第j个维度为1
×
K的向量中的第s个初始概率，s为大于或等于1、且小于或等于K的正整数。7.根据权利要求1所述的方法，其特征在于，所述方法还包括：在所述初始结果表征向量中确定第一组概率中大于或等于第一预设阈值的概率的第一数量以及第二组概率中大于或等于第二预设阈值的概率的第二数量，其中，所述第一组概率包括从所述N个局部图像中的每...

【专利技术属性】
技术研发人员：王翔翔，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人