OCR训练数据生成方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：29967567 阅读：18 留言：0更新日期：2021-09-08 09:38

本申请涉及一种OCR训练数据生成方法、装置、计算机设备和存储介质。所述方法包括：通过获取训练语料库，获取图像参数信息，根据图像参数信息建立空白图像，提取训练语料库中预设字符串，按照预设的生成字符参数信息将提取的字符串中的字符写入空白图像中，生成初始图像，对初始图像进行图像增强处理，得到训练图像，根据训练图像生成训练OCR深度学习引擎的训练数据。本方案用于优化传真图像和扫描图像的识别，生成的训练数据中的图片具备真实传真图像或扫描图像特征，使用该训练数据进行训练后的OCR模型在进行识别传真图像和扫描图像时，识别率有着显著的提升。识别率有着显著的提升。识别率有着显著的提升。

全部详细技术资料下载

【技术实现步骤摘要】
OCR训练数据生成方法、装置、计算机设备和存储介质

[0001]本申请涉及OCR识别
，特别是涉及一种OCR训练数据生成方法、装置、计算机设备和存储介质。

技术介绍

[0002]神经网络模型目前在大多数学科、领域应用上都取得比传统模型更好的精度效果，同时也具备良好的应用泛化性。目前常用的神经网络模型主要有卷积神经网络(CNN)、循环神经网络(RNN)以及tansformer网络这三种；同时正在发展的图神经网络(GNN)也在生物、化学等领域有着一定的应用。
[0003]任何的神经网络模型离不开模型训练，这需要构建相关的训练数据，并与神经网络模型进行权重训练。对于OCR模型的训练任务，需要生成固定尺寸的文本行图像，并记录各个图像对应的文本行字符；将数字图像输入至神经网络模型中，模型对输入图像数据进行预测；将输出的预测文本行字符与真实文本行字符进行计算，得到模型预测的误差值；将误差数值对模型参数进行更新。
[0004]目前常用的OCR训练图像生成方法，是使用random随机算法生成随机灰度或者彩色底色的无字符内容图像。使用opencv等数字图像处理库对图像写入随机尺度的字符图像。并结合简单的高斯滤波、仿射变化、加粗、裁剪等算法对图像进行增噪，获得训练图像。
[0005]上述使用的训练图像生成方法，是针对在自然场景下的字符识别，许多的噪声处理都是为了增加训练场景情况的复杂性。但在传统的扫描电子文档、传真文档的OCR识别任务上，所面对的是字符笔画的缺失、由于曝光度等问题造成笔画的细粗化以及传真条件...

【技术保护点】

【技术特征摘要】
1.一种OCR训练数据生成方法，其特征在于，所述方法包括：获取训练语料库；获取图像参数信息，根据所述图像参数信息建立空白图像；提取所述训练语料库中预设字符串，按照预设的生成字符参数信息将提取的字符串中的字符写入所述空白图像中，生成初始图像；对所述初始图像进行图像增强处理，得到训练图像；根据所述训练图像生成训练数据。2.根据权利要求1所述的OCR训练数据生成方法，其特征在于，所述按照预设的生成字符参数信息将提取的字符串中的字符写入所述空白图像中，生成初始图像，包括：根据所述图像参数信息获取所述生成字符参数信息；从所述训练语料库的字符串中获取生成字符；根据所述生成字符参数信息将所述生成字符写入所述空白图像，得到初始图像。3.根据权利要求2所述的OCR训练数据生成方法，其特征在于，所述图像参数信息包括图像宽度和图像高度；所述根据所述生成字符参数信息将所述字符写入所述空白图像，得到初始图像，包括：从所述空白图像的字符起始水平位置开始，根据所述生成字符参数信息将所述生成字符写入所述空白图像中，直到当前生成字符的字符起始水平位置超过所述图像宽度，得到初始图像。4.根据权利要求1所述的OCR训练数据生成方法，其特征在于，所述对所述初始图像进行图像增强处理，得到训练图像，包括：对所述初始图像进行随机二值化；对二值化后的所述初始图像中的黑色像素进行随机映射至预设灰度值范围；对所述初始训练图像进行抖动处理生成点阵二值图；对所述点阵二值图进行横向或纵向的随机缩放，得到训练图像。5.根据权利要求1所述的OCR训练数据生成方法，其特征在于，所述对所述初始图像进行图像增强处理，得到训练图像，包括：对所述初始图像进行随机二值化；根据二值化后的所述初始图像获取黑色像素微量形态学膨胀的图像；对所述初始图像进行拷贝，得到拷贝图像；对所述初始图像进行纵向腐蚀运算；根据所述图像参数信息生成所述...

【专利技术属性】
技术研发人员：朱军，禤少茵，
申请(专利权)人：广州市新文溯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人