OCR训练数据生成方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:29967567 阅读:18 留言:0更新日期:2021-09-08 09:38
本申请涉及一种OCR训练数据生成方法、装置、计算机设备和存储介质。所述方法包括:通过获取训练语料库,获取图像参数信息,根据图像参数信息建立空白图像,提取训练语料库中预设字符串,按照预设的生成字符参数信息将提取的字符串中的字符写入空白图像中,生成初始图像,对初始图像进行图像增强处理,得到训练图像,根据训练图像生成训练OCR深度学习引擎的训练数据。本方案用于优化传真图像和扫描图像的识别,生成的训练数据中的图片具备真实传真图像或扫描图像特征,使用该训练数据进行训练后的OCR模型在进行识别传真图像和扫描图像时,识别率有着显著的提升。识别率有着显著的提升。识别率有着显著的提升。

【技术实现步骤摘要】
OCR训练数据生成方法、装置、计算机设备和存储介质


[0001]本申请涉及OCR识别
,特别是涉及一种OCR训练数据生成方法、装置、计算机设备和存储介质。

技术介绍

[0002]神经网络模型目前在大多数学科、领域应用上都取得比传统模型更好的精度效果,同时也具备良好的应用泛化性。目前常用的神经网络模型主要有卷积神经网络(CNN)、循环神经网络(RNN)以及tansformer网络这三种;同时正在发展的图神经网络(GNN)也在生物、化学等领域有着一定的应用。
[0003]任何的神经网络模型离不开模型训练,这需要构建相关的训练数据,并与神经网络模型进行权重训练。对于OCR模型的训练任务,需要生成固定尺寸的文本行图像,并记录各个图像对应的文本行字符;将数字图像输入至神经网络模型中,模型对输入图像数据进行预测;将输出的预测文本行字符与真实文本行字符进行计算,得到模型预测的误差值;将误差数值对模型参数进行更新。
[0004]目前常用的OCR训练图像生成方法,是使用random随机算法生成随机灰度或者彩色底色的无字符内容图像。使用opencv等数字图像处理库对图像写入随机尺度的字符图像。并结合简单的高斯滤波、仿射变化、加粗、裁剪等算法对图像进行增噪,获得训练图像。
[0005]上述使用的训练图像生成方法,是针对在自然场景下的字符识别,许多的噪声处理都是为了增加训练场景情况的复杂性。但在传统的扫描电子文档、传真文档的OCR识别任务上,所面对的是字符笔画的缺失、由于曝光度等问题造成笔画的细粗化以及传真条件下的低分辨率问题。因此目前的训练图像生成方法无法针对该情况生成相应的训练数据文件,导致目前的OCR模型在识别扫描电子文档、传真文档的识别率不高。

技术实现思路

[0006]基于此,有必要针对上述技术问题,提供一种能够提高OCR识别引擎在识别扫描、传真文档字符的准确度的OCR训练数据生成方法、装置、计算机设备和存储介质。
[0007]一种OCR训练数据生成方法,方法包括:
[0008]获取训练语料库;
[0009]获取图像参数信息,根据图像参数信息建立空白图像;
[0010]提取训练语料库中预设字符串,按照预设的生成字符参数信息将提取的字符串中的字符写入空白图像中,生成初始图像;
[0011]对初始图像进行图像增强处理,得到训练图像;
[0012]根据训练图像生成训练数据。
[0013]在其中一个实施例中,按照预设的生成字符参数信息将提取的字符串中的字符写入空白图像中,生成初始图像,包括:
[0014]根据图像参数信息获取生成字符参数信息;
[0015]从训练语料库的字符串中获取生成字符;
[0016]根据生成字符参数信息将生成字符写入空白图像,得到初始图像。
[0017]在其中一个实施例中,图像参数信息包括图像宽度;根据生成字符参数信息将字符写入空白图像,得到初始图像,包括:
[0018]从空白图像的字符起始水平位置开始,根据生成字符参数信息将生成字符写入空白图像中,直到下一个生成字符的字符起始水平位置超过图像宽度,停止写入,得到初始图像。
[0019]在其中一个实施例中,对初始图像进行图像增强处理,得到训练图像,包括:
[0020]对初始图像进行随机二值化;
[0021]对二值化后的初始图像中的黑色像素进行随机映射至预设灰度值范围;
[0022]对初始训练图像进行抖动处理生成点阵二值图;
[0023]对点阵二值图进行横向或纵向的随机缩放,得到训练图像。
[0024]在其中一个实施例中,对初始图像进行图像增强处理,得到训练图像,包括:
[0025]对初始图像进行随机二值化;
[0026]根据二值化后的初始图像获取黑色像素微量形态学膨胀的图像;
[0027]对初始图像进行拷贝,得到拷贝图像;
[0028]对初始图像进行纵向腐蚀运算;
[0029]根据图像参数信息生成初始图像的映射矩阵;
[0030]对初始图像和拷贝图像,根据映射矩阵对腐蚀运算处理掉的初始图像中的横向笔画进行连接;
[0031]对初始图像的横向或纵向进行随机的双线性插值或立方插值;
[0032]对插值后的初始图像进行随机二值化,得到训练图像。
[0033]在其中一个实施例中,对初始图像和拷贝图像,根据映射矩阵对腐蚀运算处理掉的初始图像中的横向笔画进行连接,包括:
[0034]若映射矩阵在某个像素点的值为第一点值,对初始图像和拷贝图像对应的像素点值进行与运算;
[0035]若映射矩阵在某个像素点的值为第二点值,则删除该像素点在初始图像中对应的像素值。
[0036]在其中一个实施例中,根据训练图像生成训练数据,包括:
[0037]保存训练图像到预设路径中;
[0038]保存训练图像的预设路径;
[0039]保存训练图像对应的字符串文本;
[0040]整合训练图像、预设路径和字符串文本,得到训练数据。
[0041]一种OCR训练数据生成装置,装置包括:
[0042]语料获取模块,用于获取训练语料库;
[0043]图像建立模块,用于获取图像参数信息,根据图像参数信息建立空白图像;
[0044]字符提取模块,用于提取训练语料库中预设字符串,按照预设的生成字符参数信息将提取的字符串中的字符写入空白图像中,生成初始图像;
[0045]图像增强模块,对初始图像进行图像增强处理,得到训练图像;
[0046]数据生成模块,用于根据训练图像生成训练数据。
[0047]一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
[0048]获取训练语料库;
[0049]获取图像参数信息,根据图像参数信息建立空白图像;
[0050]提取训练语料库中预设字符串,按照预设的生成字符参数信息将提取的字符串中的字符写入空白图像中,生成初始图像;
[0051]对初始图像进行图像增强处理,得到训练图像;
[0052]根据训练图像生成训练数据。
[0053]一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0054]获取训练语料库;
[0055]获取图像参数信息,根据图像参数信息建立空白图像;
[0056]提取训练语料库中预设字符串,按照预设的生成字符参数信息将提取的字符串中的字符写入空白图像中,生成初始图像;
[0057]对初始图像进行图像增强处理,得到训练图像;
[0058]根据训练图像生成训练数据。
[0059]上述OCR训练数据生成方法中,通过获取训练语料库,获取图像参数信息,根据图像参数信息建立空白图像,提取训练语料库中预设字符串,按照预设的生成字符参数信息将提取的字符串中的字符写入空白图像中,生本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种OCR训练数据生成方法,其特征在于,所述方法包括:获取训练语料库;获取图像参数信息,根据所述图像参数信息建立空白图像;提取所述训练语料库中预设字符串,按照预设的生成字符参数信息将提取的字符串中的字符写入所述空白图像中,生成初始图像;对所述初始图像进行图像增强处理,得到训练图像;根据所述训练图像生成训练数据。2.根据权利要求1所述的OCR训练数据生成方法,其特征在于,所述按照预设的生成字符参数信息将提取的字符串中的字符写入所述空白图像中,生成初始图像,包括:根据所述图像参数信息获取所述生成字符参数信息;从所述训练语料库的字符串中获取生成字符;根据所述生成字符参数信息将所述生成字符写入所述空白图像,得到初始图像。3.根据权利要求2所述的OCR训练数据生成方法,其特征在于,所述图像参数信息包括图像宽度和图像高度;所述根据所述生成字符参数信息将所述字符写入所述空白图像,得到初始图像,包括:从所述空白图像的字符起始水平位置开始,根据所述生成字符参数信息将所述生成字符写入所述空白图像中,直到当前生成字符的字符起始水平位置超过所述图像宽度,得到初始图像。4.根据权利要求1所述的OCR训练数据生成方法,其特征在于,所述对所述初始图像进行图像增强处理,得到训练图像,包括:对所述初始图像进行随机二值化;对二值化后的所述初始图像中的黑色像素进行随机映射至预设灰度值范围;对所述初始训练图像进行抖动处理生成点阵二值图;对所述点阵二值图进行横向或纵向的随机缩放,得到训练图像。5.根据权利要求1所述的OCR训练数据生成方法,其特征在于,所述对所述初始图像进行图像增强处理,得到训练图像,包括:对所述初始图像进行随机二值化;根据二值化后的所述初始图像获取黑色像素微量形态学膨胀的图像;对所述初始图像进行拷贝,得到拷贝图像;对所述初始图像进行纵向腐蚀运算;根据所述图像参数信息生成所述...

【专利技术属性】
技术研发人员:朱军禤少茵
申请(专利权)人:广州市新文溯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1