文本识别模型的训练方法、装置、设备以及存储介质制造方法及图纸

技术编号:31378498 阅读:19 留言:0更新日期:2021-12-15 11:19
本发明专利技术涉及人工智能领域,提供了一种文本识别模型的训练方法、装置、设备以及存储介质,其中,方法包括:通过获取多个第一票据图片以及所述第一票据图片对应的文本内容,并输入图像文本模型中进行训练,得到初步模型,将多个第二票据图片输入至所述初步模型中,提取各个识别文字的各个目标特征,并将所述目标特征设置为各个识别特征所对应的类别中心,对每个文字识别到的识别特征进行center loss训练,使得到的文本识别模型对于每个文字的识别特征更接近于对应文字的特征,使文本识别模型的全连接层对于识别到的文字具有更高的辨识度,从而提高了对文字的识别能力,减小了对文字的识别不准确的概率,提高了对模糊图片的识别度。提高了对模糊图片的识别度。提高了对模糊图片的识别度。

【技术实现步骤摘要】
文本识别模型的训练方法、装置、设备以及存储介质


[0001]本专利技术涉及人工智能领域,特别涉及一种文本识别模型的训练方法、装置、设备以及存储介质。

技术介绍

[0002]OCR(光学字符识别,Optical Character Recognition)识别目前已经得到广泛的应用,并极大方便了人们的生活。目前文字识别的方法主要基于CRNN(一种文字识别模型,包括循环神经网络和卷积神经网络)+CTC(Connectionist temporal classification,时序类数据分类)或者是attention等方法识别文字,然而这种模型尽管经过大量的数据训练,但是对于票据的识别,尤其是对模糊的票据识别,存在识别度不高的问题。

技术实现思路

[0003]本专利技术的主要目的为提供一种文本识别模型的训练方法、装置、设备以及存储介质,旨在解决现有的文字识别模型对模糊的票据的识别度不高的问题。
[0004]本专利技术提供了一种文本识别模型的训练方法,包括:
[0005]获取多个训练数据;其中所述训练数据包括成对出现的第一票据图片以及所述第一票据图片对应的文本内容;
[0006]将各所述训练数据依次输入图像文本模型中进行训练,得到初步模型;其中,所述图像文本模型以所述第一票据图片作为输入,以对应的所述文本内容作为输出进行训练;
[0007]将多个第二票据图片输入至所述初步模型中,得到识别到的各个识别文字以及每个所述识别文字的多个识别特征;
[0008]从预设的数据库中提取所述识别文字的各个目标特征;
[0009]将各个所述目标特征分别设置为所述多个识别特征所对应的类别中心,计算每个所述识别特征的类别中心,并基于对应的类别中心计算center loss损失值;其中,所述center loss损失值为各所述识别特征与其对应的类别中心的距离所对应的损失值;
[0010]基于各所述center loss损失值校正至所述初步模型中的参数,记为一次迭代训练,计算新的center loss损失值并继续迭代训练多次,直至达到初始模型的收敛条件,从而得到所述文本识别模型。
[0011]进一步地,所述将各所述训练数据依次输入图像文本模型中进行训练,得到初步模型的步骤,包括:
[0012]将所述多个训练数据分为测试集和训练集;
[0013]将所述训练集中的所述第一票据图片以及对应的文本内容依次输入图像文本模型中进行训练,得到暂时模型;
[0014]将所述测试集输入所述暂时模型中,并计算所述暂时模型的损失值;
[0015]判断所述暂时模型的损失值是否小于预设损失值;
[0016]若是,则判定所述暂时模型为所述初步模型。
[0017]进一步地,所述基于各所述center loss损失值校正至所述初步模型中的参数,记为一次迭代训练,计算新的center loss损失值并继续迭代训练多次,直至达到初始模型的收敛条件,从而得到所述文本识别模型的步骤,包括:
[0018]将所述center loss损失值输入至所述初步模型的全连接层中,并按照预设的权值更新公式更新各个识别结果的识别权重;
[0019]根据所述识别权重计算新的center loss损失值并输入至所述预设的权值更新公式中继续迭代训练多次,直至达到初始模型的收敛条件,从而得到所述文本识别模型。
[0020]进一步地,所述基于各所述center loss损失值校正至所述初步模型中的参数,记为一次迭代训练,计算新的center loss损失值并继续迭代训练多次,直至达到初始模型的收敛条件,从而得到所述文本识别模型的步骤,包括:
[0021]将所述center loss损失值输入至所述初步模型的全连接层中,并按照预设的类别中心更新公式更新各个类别中心;
[0022]根据更新后的类别中心计算新的center loss损失值并输入至所述类别中心更新公式中继续迭代训练多次,直至达到初始模型的收敛条件,从而得到所述文本识别模型。
[0023]进一步地,所述将所述center loss损失值输入至所述初步模型的全连接层中,并按照预设的类别中心更新公式更新各个类别中心的步骤,包括:
[0024]获取所述文本内容中各个文字在所有所述文本内容中的个数;
[0025]根据所述预设的类别中心更新公式计算更新后的各个类别中心;其中,所述预设的类别中心更新公式为:
[0026][0027]其中,所述c
ij
为第i个文字的第j个特征所对应的类别中心,new_c
ij
为所述类别中心更新后的类别中心,apper_time
ij
表示第i个文字所对应的个数,a为设定的模型更新速率参数,y
ij
表示当前训练过程中识别到的第i个文字的第j个特征。
[0028]进一步地,所述获取多个训练数据的步骤中,获取所述第一票据图片的方法,包括:
[0029]获取具有票据的目标图片;
[0030]采集所述目标图片中的像素点的RGB颜色模型中的R颜色通道的数值、G颜色通道的数值和B颜色通道的数值,
[0031]根据各像素点的R颜色通道的数值、G颜色通道的数值和B颜色通道的数值,采用预设的像素点转化方法将对应的像素点设置为(0,0,0)、(255,255,255)以及(P,P,P)中的像素值,得到三值化的所述第一票据图片;其中,P为预设的数值,255>P>0。
[0032]本专利技术还提供了一种文本识别模型的训练装置,包括:
[0033]获取模块,用于获取多个训练数据;其中所述训练数据包括成对出现的第一票据图片以及所述第一票据图片对应的文本内容;
[0034]第一输入模块,用于将各所述训练数据依次输入图像文本模型中进行训练,得到初步模型;其中,所述图像文本模型以所述第一票据图片作为输入,以对应的所述文本内容作为输出进行训练;
[0035]第二输入模块,用于将多个第二票据图片输入至所述初步模型中,得到识别到的各个识别文字以及每个所述识别文字的多个识别特征;
[0036]提取模块,用于从预设的数据库中提取所述识别文字的各个目标特征;
[0037]设置模块,用于将各个所述目标特征分别设置为所述多个识别特征所对应的类别中心,计算每个所述识别特征的类别中心,并基于对应的类别中心计算center loss损失值;
[0038]第三输入模块,用于基于各所述center loss损失值校正至所述初步模型中的参数,记为一次迭代训练,计算新的center loss损失值并继续迭代训练多次,直至达到初始模型的收敛条件,从而得到所述文本识别模型。
[0039]进一步地,所述第一输入模块,包括:
[0040]训练数据拆分子模块,用于将所述多个训练数据分为测试集和训练集;
[0041]文本内容输入子模块,用于将所述训练集中的所述第一票据图片以及对应的文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
loss损失值输入至所述初步模型的全连接层中,并按照预设的类别中心更新公式更新各个类别中心的步骤,包括:获取所述文本内容中各个文字在所有所述文本内容中的个数;根据所述预设的类别中心更新公式计算更新后的各个类别中心;其中,所述预设的类别中心更新公式为:其中,所述c
ij
为第i个文字的第j个特征所对应的类别中心,new_c
ij
为所述类别中心更新后的类别中心,apper_time
ij
表示第i个文字所对应的个数,a为设定的模型更新速率参数,y
ij
表示当前训练过程中识别到的第i个文字的第j个特征。6.如权利要求1所述的文本识别模型的训练方法,其特征在于,所述获取多个训练数据的步骤中,获取所述第一票据图片的方法,包括:获取具有票据的目标图片;采集所述目标图片中的像素点的RGB颜色模型中的R颜色通道的数值、G颜色通道的数值和B颜色通道的数值;根据各像素点的R颜色通道的数值、G颜色通道的数值和B颜色通道的数值,采用预设的像素点转化方法将对应的像素点设置为(0,0,0)、(255,255,255)以及(P,P,P)中的像素值,得到三值化的所述第一票据图片;其中,P为预设的数值,255>P>0。7.一种文本识别模型的训练装置,其特征在于,包括:获取模块,用于获取多个训练数据;其中所述训练数据包括成对出现的第一票据图片以及所述第一票据图片对应的文本内容;第一输入模块,用于将各所述训练数据依次输入图像文本模型中进行训练,得到初步模型;其中,所述图像文本模型以所述第一票据图片作为输入,以对应的所述文本内容作为输出进行训练;第二输...

【专利技术属性】
技术研发人员:徐有正韩茂琨刘玉宇
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1