文本识别模型的训练方法和装置、存储介质及电子设备制造方法及图纸

技术编号:38936524 阅读:9 留言:0更新日期:2023-09-25 09:38
本申请公开了一种文本识别模型的训练方法和装置、存储介质及电子设备,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。该方法包括:确定第i轮训练使用的样本图像的图像表征向量序列,样本图像包括N个局部图像;根据图像表征向量序列,确定初始结果表征向量;根据初始结果表征向量,确定与N个局部图像对应的N个最终识别结果;调整初始结果表征向量中用于表征该局部图像的初始识别结果、维度为1

【技术实现步骤摘要】
文本识别模型的训练方法和装置、存储介质及电子设备


[0001]本申请涉及计算机
,具体而言,涉及一种文本识别模型的训练方法和装置、存储介质及电子设备。

技术介绍

[0002]在文本识别场景中,通常采用文本识别模型中的编码器对样本图像进行编码处理,得到用于表征样本图像的图像表征向量,然后对图像表征向量经过解码处理,得到每个图像表征向量的预测结果。
[0003]然而,在文本识别模型训练的过程中,通常会出现正负样本数量不均衡的问题,例如,在文本识别过程中,非空白识别结果对应的图像表征向量为检测中的正样本,空白识别结果对应的图像表征向量为检测中的负样本。当目标文本为中文时,每个字符书写复杂、且字符呈现方块状,每个字符所占区域的宽高边比较大,字符密度较低。因此,空白识别结果对应的图像表征向量的数量远超过非空白识别结果对应的图像表征向量的数量。
[0004]在此情况下,需要耗费大量的时间和大量的资源去训练置信度较高的空白识别结果对应的图像表征向量,导致了训练非空白识别结果对应的图像表征向量的时间下降,这就使得训练过程中损失函数的收敛效率明显降低,造成了文本识别模型的训练过程中出现的效率较低的技术问题。
[0005]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0006]本申请实施例提供了一种文本识别模型的训练方法和装置、存储介质及电子设备,以至少解决文本识别模型的训练过程中出现的效率较低的技术问题。
[0007]根据本申请实施例的一个方面,提供了一种文本识别模型的训练方法,包括:通过以下步骤对待训练的文本识别模型执行第i轮训练,其中,i为大于或等于1的正整数:确定第i轮训练使用的样本图像的图像表征向量序列,其中,图像表征向量序列包括N个图像表征向量,N个图像表征向量中的每个图像表征向量用于表征样本图像中的N 个局部图像中对应的局部图像,N和K为大于或等于2的正整数;根据图像表征向量序列,确定维度为N
×
K的初始结果表征向量,其中,初始结果表征向量中的每个维度为1
×
K的向量包括从N个局部图像中对应的局部图像中识别到的结果是预设的K个识别结果中的每个识别结果的概率,K个识别结果包括K

1个预设字符和空识别结果,空识别结果表示识别不到字符;根据初始结果表征向量,确定与N个局部图像对应的N个最终识别结果,其中,每个局部图像对应的最终识别结果是K个识别结果中概率最大的识别结果;对于最终识别结果为空识别结果的局部图像,调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1
×
K的向量,以下调该局部图像的初始识别结果为K个识别结果中每个识别结果的概率,调整后的初始结果表征向量为目标结果表征向量;根据目标结果表征向量,确定第i轮训练对应的损失值,在第i轮训练对应的损失值不满足预设的收敛条件的情况下,对待训练的文本识别模型
中的参数进行调整。
[0008]可选地,上述对于最终识别结果为空识别结果的局部图像,调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1
×
K的向量,以下调该局部图像的初始识别结果为K个识别结果中每个识别结果的概率,包括:对于最终识别结果为空识别结果的局部图像,根据该局部图像为空白识别结果的概率调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1
×
K的向量,以下调该局部图像的初始识别结果为K个识别结果中每个识别结果的概率,下调后该局部图像的初始识别结果为K个识别结果中每个识别结果的概率,与调整前该局部图像为空白识别结果的概率成反比。
[0009]可选地,上述对于最终识别结果为空识别结果的局部图像,调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1
×
K的向量,以下调该局部图像的初始识别结果为K个识别结果中每个识别结果的概率,包括:对于最终识别结果为空识别结果的局部图像,根据N个最终识别结果中非空识别结果的占比调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1
×
K的向量,以下调该局部图像的初始识别结果为K个识别结果中每个识别结果的概率,下调后该局部图像的初始识别结果为K个识别结果中每个识别结果的概率,与占比成正比。
[0010]可选地,上述对于最终识别结果为空识别结果的局部图像,调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1
×
K的向量,包括:在最终识别结果为空识别结果的局部图像为R个局部图像的情况下,调整初始结果表征向量中用于表征R个局部图像中的Q个局部图像的初始识别结果的、Q个维度为1
×
K的向量,以下调Q个局部图像的初始识别结果为Q
×
K个识别结果中每个识别结果的概率,其中,R为大于或等于1、且小于或等于N的正整数,Q为大于或等于1、且小于或等于R的正整数。
[0011]可选地,上述根据该局部图像为空白识别结果的概率和非空识别结果的占比调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1
×
K的向量,包括:在N个最终识别结果中的R个最终识别结果为空识别结果的情况下,通过以下步骤将R个最终识别结果中的第j个最终识别结果对应的维度为1
×
K的向量中的K个概率下调,并得到K个下调后的概率:将K个下调后的概率中的第s个下调后的概率确定为等于第j个最终识别结果对应的维度为1
×
K的向量中的第s个概率、(1

第j个最终识别结果对应的维度为1
×
K的向量中的空识别结果对应的概率)以及占比三者之间的乘积,其中,第s个概率为第j个维度为1
×
K的向量中的第s个初始概率,s为大于或等于1、且小于或等于K的正整数。
[0012]可选地,上述方法还包括:在初始结果表征向量中确定第一组概率中大于或等于第一预设阈值的概率的第一数量以及第二组概率中大于或等于第二预设阈值的概率的第二数量,其中,第一组概率包括从N个局部图像中的每个局部图像中识别到的结果是空识别结果的概率,第二组概率包括从N个局部图像中的每个局部图像中识别到的结果是K

1个预设字符中的一个字符的概率;根据第一数量和第二数量,调整初始结果表征向量中用于表征R个局部图像中的Q个局部图像的初始识别结果的、Q个维度为1
×
K的向量,以下调Q个局部图像的初始识别结果为Q
×
K个识别结果中每个识别结果的概率,其中,R个局部图像为N个最终识别结果为空识别结果的局部图像,R为大于或等于1、且小于或等于N的正整数,Q为大于或等于1、且小于或等于R的正整数,得到维度为N
×
K的目标结果表征向量。
[0013]可选地,上述根据第一数量和第二数量,调整初始结果表征向量中用于表征R个局
部图像中的Q个局部图像的初始识别结果的、Q本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别模型的训练方法,其特征在于,包括:通过以下步骤对待训练的文本识别模型执行第i轮训练,其中,i为大于或等于1的正整数:确定第i轮训练使用的样本图像的图像表征向量序列,其中,所述图像表征向量序列包括N个图像表征向量,所述N个图像表征向量中的每个图像表征向量用于表征所述样本图像中的N 个局部图像中的一个,N和K为大于或等于2的正整数;根据所述图像表征向量序列,确定维度为N
×
K的初始结果表征向量,其中,所述初始结果表征向量中的每个维度为1
×
K的向量用于表征一个局部图像的初始识别结果为预设的K个识别结果中的每个识别结果的概率,所述K个识别结果包括K

1个预设字符和空识别结果,所述空识别结果表示识别不到字符;根据所述初始结果表征向量,确定与所述N 个局部图像对应的N个最终识别结果,其中,每个局部图像对应的最终识别结果是所述K个识别结果中概率最大的识别结果;对于所述最终识别结果为所述空识别结果的局部图像,调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1
×
K的向量,以下调该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率,调整后的所述初始结果表征向量为目标结果表征向量;根据所述目标结果表征向量,确定所述第i轮训练对应的损失值,在所述第i轮训练对应的损失值不满足预设的收敛条件的情况下,对所述待训练的文本识别模型中的参数进行调整。2.根据权利要求1所述的方法,其特征在于,所述对于所述最终识别结果为所述空识别结果的局部图像,调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1
×
K的向量,以下调该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率,包括:对于所述最终识别结果为所述空识别结果的局部图像,根据该局部图像为所述空白识别结果的概率调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1
×
K的向量,以下调该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率,下调后该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率,与调整前该局部图像为所述空白识别结果的概率成反比。3.根据权利要求1所述的方法,其特征在于,所述对于所述最终识别结果为所述空识别结果的局部图像,调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1
×
K的向量,以下调该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率,包括:对于所述最终识别结果为所述空识别结果的局部图像,根据N个最终识别结果中非空识别结果的占比调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1
×
K的向量,以下调该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率,下调后该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率,与所述占比成正比。4.根据权利要求1所述的方法,其特征在于,所述对于所述最终识别结果为所述空识别结果的局部图像,调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、
维度为1
×
K的向量,以下调该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率,包括:对于所述最终识别结果为所述空识别结果的局部图像,根据该局部图像为所述空白识别结果的概率和所述非空识别结果的占比调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1
×
K的向量,以下调该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率,下调后该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率,与调整前该局部图像为所述空白识别结果的概率成反比、且与所述占比成正比。5.根据权利要求1所述的方法,其特征在于,所述对于所述最终识别结果为所述空识别结果的局部图像,调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1
×
K的向量,包括:在所述最终识别结果为所述空识别结果的局部图像为R个局部图像的情况下,调整所述初始结果表征向量中用于表征所述R个局部图像中的Q个局部图像的初始识别结果的、Q个维度为1
×
K的向量,以下调所述Q个局部图像的初始识别结果为Q
×
K个识别结果中每个识别结果的概率,其中,R为大于或等于1、且小于或等于N的正整数,Q为大于或等于1、且小于或等于R的正整数。6.根据权利要求4所述的方法,其特征在于,所述根据该局部图像为所述空白识别结果的概率和所述非空识别结果的占比调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1
×
K的向量,包括:在所述N个最终识别结果中的R个最终识别结果为所述空识别结果的情况下,通过以下步骤将所述R个最终识别结果中的第j个最终识别结果对应的维度为1
×
K的向量中的K个概率下调,并得到K个下调后的概率:将所述K个下调后的概率中的第s个下调后的概率确定为等于所述第j个最终识别结果对应的维度为1
×
K的向量中的第s个概率、(1

所述第j个最终识别结果对应的维度为1
×
K的向量中的空识别结果对应的概率)以及所述占比三者之间的乘积,其中,所述第s个概率为所述第j个维度为1
×
K的向量中的第s个初始概率,s为大于或等于1、且小于或等于K的正整数。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:在所述初始结果表征向量中确定第一组概率中大于或等于第一预设阈值的概率的第一数量以及第二组概率中大于或等于第二预设阈值的概率的第二数量,其中,所述第一组概率包括从所述N个局部图像中的每...

【专利技术属性】
技术研发人员:王翔翔
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1