单字符文本归一化模型训练方法、文本识别方法及装置制造方法及图纸

技术编号:23672600 阅读:39 留言:0更新日期:2020-04-04 18:01
本申请涉及一种单字符文本归一化模型训练方法、文本识别方法及装置。所述模型训练方法包括:获取若干个单字符样本图片;对单字符样本图片进行归一化处理,得到与单字符样本图片对应的标准字符图片;根据若干个单字符样本图片和与若干个单字符样本图片一一对应的标准字符图片生成训练数据集;采用训练数据集,利用均方损失函数训练深度学习神经网络,得到单字符文本归一化模型。由于训练时所使用的训练数据集是由原始数据以及通过归一化处理后得到的具有统一样式的标准字符图片共同组成的,因此,在对模型进行训练的过程中,可以加速模型的训练和收敛,使得模型可以更好的学习到各种输入文本的本质特征,进而提高了模型的识别精度。

Single character text normalization model training method, text recognition method and device

【技术实现步骤摘要】
单字符文本归一化模型训练方法、文本识别方法及装置
本申请涉及图像识别
,特别是涉及一种单字符文本归一化模型训练方法、文本识别方法及装置。
技术介绍
随着人工智能技术的发展,越来越多的繁琐工作被机器所取代。OCR(OpticalCharacterRecognition,光学字符识别)任务作为计算机视觉中的一个重要分支,在票据识别、文本自动录入等众多领域应用广泛。但是,通常这类任务的原始文本可能出现于各种复杂背景中,如可能以各种字体、大小等不同样式出现。因此,需要利用计算机视觉相关方法,在从图片中定位到的文本串中识别出对应的字符,以用于下游任务。而深度学习作为人工智能领域的重要分支,神经网络在各个领域已经取得了巨大的成功。目前,神经网络主要有如下两种:卷积神经网络和循环神经网络,而前者主要用于结构化数据(如图像等),后者主要用序列数据(如语音等)。而将基于深度学习的卷积神经网络应用于OCR任务是目前常用的做法,一般基于BLSTM(BidirectionalLongShort-TermMemory,双向长短期记忆网络)+CTC(Conn本文档来自技高网...

【技术保护点】
1.一种单字符文本归一化模型训练方法,其特征在于,所述方法包括:/n获取若干个单字符样本图片;/n对所述单字符样本图片进行归一化处理,得到与所述单字符样本图片对应的标准字符图片;/n根据所述若干个单字符样本图片和与所述若干个单字符样本图片一一对应的标准字符图片生成训练数据集;/n采用所述训练数据集,利用均方损失函数训练深度学习神经网络,直到所述均方损失函数达到最小值时,得到单字符文本归一化模型。/n

【技术特征摘要】
1.一种单字符文本归一化模型训练方法,其特征在于,所述方法包括:
获取若干个单字符样本图片;
对所述单字符样本图片进行归一化处理,得到与所述单字符样本图片对应的标准字符图片;
根据所述若干个单字符样本图片和与所述若干个单字符样本图片一一对应的标准字符图片生成训练数据集;
采用所述训练数据集,利用均方损失函数训练深度学习神经网络,直到所述均方损失函数达到最小值时,得到单字符文本归一化模型。


2.根据权利要求1所述的单字符文本归一化模型训练方法,其特征在于,所述对所述单字符样本图片进行归一化处理,得到与所述单字符样本图片对应的标准字符图片,包括:
识别所述单字符样本图片中对应的字符特征;
根据所述字符特征对所述单字符样本图片进行整体风格、整体尺寸、字体类型、字符大小以及字符位置的归一化处理,得到归一化后的标准字符图片。


3.根据权利要求1所述的单字符文本归一化模型训练方法,其特征在于,所述根据所述若干个单字符样本图片和与所述若干个单字符样本图片一一对应的标准字符图片生成训练数据集,包括:
根据所述若干个单字符样本图片和与所述若干个单字符样本图片一一对应的标准字符图片生成若干个训练样本对,所述训练样本对包括单字符样本图片和对应的标准字符图片;
对所述训练样本对中的单字符样本图片进行预处理,所述预处理包括对所述单字符样本图片的尺寸进行调整,或对调整后的所述单字符样本图片进行不同角度的旋转,以分别得到尺寸调整后的训练样本对或不同旋转角度的训练样本对;
将尺寸调整后的若干个训练样本对和不同旋转角度的训练样本对作为所述训练数据集。


4.根据权利要求1至3任一项所述的单字符文本归一化模型训练方法,其特征在于,所述深度学习神经网络采用去除了亚像素卷积层的超分辨率残差网络;所述采用所述训练数据集,利用均方损失函数训练深度学习神经网络,直到所述均方损失函数达到最小值时,得到单字符文本归一化模型,包括:
将所述训练数据集输入去除了亚像素卷积层的超分辨率残差网络进行反向传播;
采用所述均方损失函数计算所述网络的输出与所述训练数据集中对应标准字符图片的像素级误差,根据所述误差确定峰值信噪比;
通过梯度下降法对所述均方损失函数进行优化,直到所述误差达到最小值且所述峰值信噪比达到最大值时,保存模型参数,得到所述单字符文本归一化模型。


5.一种单字符文本识别方法,其特征在于,所述方法包括...

【专利技术属性】
技术研发人员:周康明周枫
申请(专利权)人:上海眼控科技股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1