文本识别模型的训练方法、装置、设备以及存储介质制造方法及图纸

技术编号：31378498 阅读：19 留言：0更新日期：2021-12-15 11:19

本发明专利技术涉及人工智能领域，提供了一种文本识别模型的训练方法、装置、设备以及存储介质，其中，方法包括：通过获取多个第一票据图片以及所述第一票据图片对应的文本内容，并输入图像文本模型中进行训练，得到初步模型，将多个第二票据图片输入至所述初步模型中，提取各个识别文字的各个目标特征，并将所述目标特征设置为各个识别特征所对应的类别中心，对每个文字识别到的识别特征进行center loss训练，使得到的文本识别模型对于每个文字的识别特征更接近于对应文字的特征，使文本识别模型的全连接层对于识别到的文字具有更高的辨识度，从而提高了对文字的识别能力，减小了对文字的识别不准确的概率，提高了对模糊图片的识别度。提高了对模糊图片的识别度。提高了对模糊图片的识别度。

全部详细技术资料下载

【技术实现步骤摘要】
文本识别模型的训练方法、装置、设备以及存储介质

[0001]本专利技术涉及人工智能领域，特别涉及一种文本识别模型的训练方法、装置、设备以及存储介质。

技术介绍

[0002]OCR(光学字符识别，Optical Character Recognition)识别目前已经得到广泛的应用，并极大方便了人们的生活。目前文字识别的方法主要基于CRNN(一种文字识别模型，包括循环神经网络和卷积神经网络)+CTC(Connectionist temporal classification，时序类数据分类)或者是attention等方法识别文字，然而这种模型尽管经过大量的数据训练，但是对于票据的识别，尤其是对模糊的票据识别，存在识别度不高的问题。

技术实现思路

[0003]本专利技术的主要目的为提供一种文本识别模型的训练方法、装置、设备以及存储介质，旨在解决现有的文字识别模型对模糊的票据的识别度不高的问题。
[0004]本专利技术提供了一种文本识别模型的训练方法，包括：
[0005]获取多个训练数据；其中所述训练数据包括成对出现的第一票据图片以及所述第一票据图片对应的文本内容；
[0006]将各所述训练数据依次输入图像文本模型中进行训练，得到初步模型；其中，所述图像文本模型以所述第一票据图片作为输入，以对应的所述文本内容作为输出进行训练；
[0007]将多个第二票据图片输入至所述初步模型中，得到识别到的各个识别文字以及每个所述识别文字的多个识别特征；
[0008]从预设的数据库中...

【技术保护点】

【技术特征摘要】
loss损失值输入至所述初步模型的全连接层中，并按照预设的类别中心更新公式更新各个类别中心的步骤，包括：获取所述文本内容中各个文字在所有所述文本内容中的个数；根据所述预设的类别中心更新公式计算更新后的各个类别中心；其中，所述预设的类别中心更新公式为：其中，所述c
ij
为第i个文字的第j个特征所对应的类别中心，new_c
ij
为所述类别中心更新后的类别中心，apper_time
ij
表示第i个文字所对应的个数，a为设定的模型更新速率参数，y
ij
表示当前训练过程中识别到的第i个文字的第j个特征。6.如权利要求1所述的文本识别模型的训练方法，其特征在于，所述获取多个训练数据的步骤中，获取所述第一票据图片的方法，包括：获取具有票据的目标图片；采集所述目标图片中的像素点的RGB颜色模型中的R颜色通道的数值、G颜色通道的数值和B颜色通道的数值；根据各像素点的R颜色通道的数值、G颜色通道的数值和B颜色通道的数值，采用预设的像素点转化方法将对应的像素点设置为(0，0，0)、(255，255，255)以及(P，P，P)中的像素值，得到三值化的所述第一票据图片；其中，P为预设的数值，255＞P＞0。7.一种文本识别模型的训练装置，其特征在于，包括：获取模块，用于获取多个训练数据；其中所述训练数据包括成对出现的第一票据图片以及所述第一票据图片对应的文本内容；第一输入模块，用于将各所述训练数据依次输入图像文本模型中进行训练，得到初步模型；其中，所述图像文本模型以所述第一票据图片作为输入，以对应的所述文本内容作为输出进行训练；第二输...

【专利技术属性】
技术研发人员：徐有正，韩茂琨，刘玉宇，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人