一种文本识别模型的构建及文本识别方法和装置制造方法及图纸

技术编号:26971769 阅读:38 留言:0更新日期:2021-01-06 00:03
本发明专利技术实施例公开了一种文本识别模型的构建及文本识别方法和装置,其中该构建方法包括:获取待识别的目标文本行图像,所述目标文本行图像上只保留文本数据;将所述目标文本行图像对初始神经网络进行训练,并判断使用所述目标文本行图像对所述初始神经网络的训练是否已经达到预定目标;若是,则记录并保存此时的所述初始神经网络对应的网络结构与模型参数数值,将其作为所述文本识别模型对应的网络结构与模型参数数值。本发明专利技术解决了现有技术的以下问题:传统文本识别模型只有一个解码器,由该解码器来统一识别这两类以上的文本行时,差别较大的文本行将使得解码器难以拟合,并且会抛弃有助于解码器进行解码的文本行类别信息。

【技术实现步骤摘要】
一种文本识别模型的构建及文本识别方法和装置
本专利技术涉及文本识别
,尤其涉及一种文本识别模型的构建及文本识别方法和装置。
技术介绍
目前,在使用OCR(OpticalCharacterRecognition,光学字符识别)技术做文本识别时,流程大致如下:首先使用文本检测模型检测出文本行所在的位置,然后根据文本行位置扣出文本行图像,最后使用文本识别模型对文本行图像中的文字信息进行识别。在识别具有固定排版格式的证件时,例如需要识别身份证上的身份证号码与住址信息,此时这两种文本行可看作两种类别的文本行,它们具有各自的特色信息。身份证号码文本行由固定长度的数字信息构成,而住址信息文本行通常为一个常文本且基本由汉字构成。基于Endoder-Decoder(编解码器)的传统文本识别模型只有一个解码器,由该解码器来统一识别这两类文本行,这样会带来两个问题:首先,多种差别较大的文本行将使得解码器难以拟合;另外,用同一个解码器识别多种文本行,抛弃了文本行类别信息,而文本行类别信息是有助于解码器去解码对应文本行的文字信息的。综上所述,传统文本识别模型只有一本文档来自技高网...

【技术保护点】
1.一种文本识别模型的构建方法,其特征在于,包括:/n获取待识别的目标文本行图像,所述目标文本行图像上只保留文本数据;/n将所述目标文本行图像对初始神经网络进行训练,并判断使用所述目标文本行图像对所述初始神经网络的训练是否已经达到预定目标;/n若是,则记录并保存此时的所述初始神经网络对应的网络结构与模型参数数值,将其作为所述文本识别模型对应的网络结构与模型参数数值。/n

【技术特征摘要】
1.一种文本识别模型的构建方法,其特征在于,包括:
获取待识别的目标文本行图像,所述目标文本行图像上只保留文本数据;
将所述目标文本行图像对初始神经网络进行训练,并判断使用所述目标文本行图像对所述初始神经网络的训练是否已经达到预定目标;
若是,则记录并保存此时的所述初始神经网络对应的网络结构与模型参数数值,将其作为所述文本识别模型对应的网络结构与模型参数数值。


2.根据权利要求1所述的文本识别模型的构建方法,其特征在于,所述将所述目标文本行图像对初始神经网络进行训练,包括:
将所述目标文本行图像进行预处理,得到目标文本行特征图;
将所述目标文本行特征图输入所述初始神经网络进行编码处理,得到目标编码特征图和目标中间特征向量;
将所述目标编码特征图和所述目标中间特征向量进行解码处理,得到目标文本预测结果。


3.根据权利要求2所述的文本识别模型的构建方法,其特征在于,所述判断使用所述目标文本行图像对所述初始神经网络的训练是否已经达到预定目标,包括:
获取经过解码处理后得到的所述目标文本预测结果;
将所述目标文本预测结果与所述目标文本行图像进行比较,判断两者对应的文本数据差异性是否小于预设差异性阈值;
若是,则判定使用所述目标文本行图像对所述初始神经网络的训练已经达到所述预定目标。


4.根据权利要求2所述的文本识别模型的构建方法,其特征在于,所述将所述目标文本行特征图输入所述初始神经网络进行编码处理,得到目标编码特征图和目标中间特征向量,包括:
将所述目标文本行特征图输入所述初始神经网络的编码模块进行卷积和池化处理,得到所述目标编码特征图;
将所述目标编码特征图输入GRU循环神经网络进行处理,得到所述目标中间特征向量。


5.根据权利要求2所述的文本识别模型的构建方法,其特征在于,所述将所述目标编码特征图和所述目标中间特征向量进行解码处理,得到目标文本预测结果,包括:
将所述目标编码特征图和所述目标中间特征向量输入多个目标解码器进行解码;
获取与...

【专利技术属性】
技术研发人员:高远
申请(专利权)人:中保车服科技服务股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1