训练数据生成方法、装置、电子设备和介质制造方法及图纸

技术编号：24123279 阅读：26 留言：0更新日期：2020-05-13 03:45

本公开提供了一种训练数据生成方法，包括获得目标文档图像和目标文档图像的文本内容，并将所述目标文档的文本内容作为第一标注信息，识别所述目标文档图像的文本行，并生成覆盖所述文本行的掩膜，得到掩膜覆盖文档图像，拍摄所述目标文档图像得到第一图像，作为样本数据，并拍摄所述掩膜覆盖文档图像得到第二图像，处理所述第二图像以得到包含掩膜标注数据的第三图像，作为第二标注信息，以及将所述样本数据、所述第一标注信息以及所述第二标注信息作为训练数据输出。本公开还提供了一种训练数据生成装置、一种电子设备以及一种计算机可读存储介质。

全部详细技术资料下载

【技术实现步骤摘要】
训练数据生成方法、装置、电子设备和介质
本公开涉及计算机
，更具体地，涉及一种训练数据生成方法、装置、电子设备和介质。
技术介绍
光学字符识别技术(OCR，OpticalCharacterRecognition)，是指电子设备(如扫描仪或数码相机)检查纸上打印的字符，通过检测明暗模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。随着深度学习在计算机视觉领域的发展，OCR这一计算机视觉分支，也得到越来越多的关注。现有的OCR自动标注方式一般为借助传统图像变换算法或对抗网络GAN，或是借助Photoshop或3D渲染引擎提供的API，通过批处理的方式进行图像生成。传统图像变换算法采用脚本批处理的方式进行生成的，即通过设定一些参数，对目标图像进行投射变换及模糊、锐度、亮度、饱和度等变换，这种方式很难模拟出待标注图像的真实光照、形变情况。产生这样的原因是由于大量的待标注的图像数据是根据真实物体或者文字介质拍摄而成，并不一定都如扫描文件一样可获取理想的文字载体副本，而真实物体本身由于自身的材质对光线...

【技术保护点】
1.一种训练数据生成方法，包括：/n获得目标文档图像和目标文档图像的文本内容，并将所述目标文档的文本内容作为第一标注信息；/n识别所述目标文档图像的文本行，并生成覆盖所述文本行的掩膜，得到掩膜覆盖文档图像；/n拍摄所述目标文档图像得到第一图像，作为样本数据，并拍摄所述掩膜覆盖文档图像得到第二图像；/n处理所述第二图像以得到包含掩膜标注数据的第三图像，作为第二标注信息；以及/n将所述样本数据、所述第一标注信息以及所述第二标注信息作为训练数据输出。/n

【技术特征摘要】
1.一种训练数据生成方法，包括：
获得目标文档图像和目标文档图像的文本内容，并将所述目标文档的文本内容作为第一标注信息；
识别所述目标文档图像的文本行，并生成覆盖所述文本行的掩膜，得到掩膜覆盖文档图像；
拍摄所述目标文档图像得到第一图像，作为样本数据，并拍摄所述掩膜覆盖文档图像得到第二图像；
处理所述第二图像以得到包含掩膜标注数据的第三图像，作为第二标注信息；以及
将所述样本数据、所述第一标注信息以及所述第二标注信息作为训练数据输出。

2.根据权利要求1所述的方法，其中，所述获得目标文档包括：
生成文本内容；
获得文档属性信息，所述文档属性信息包括字体、字号、颜色、背景中的一种或多种；
基于所述文本内容和文档属性信息，生成目标文档图像。

3.根据权利要求1所述的方法，其中，所述处理所述第二图像以得到包含掩膜标注数据的第三图像包括：
通过去摩尔纹算法去除所述第二图像中包含的摩尔纹，得到第四图像；
从所述第四图像中确定与所述掩膜覆盖图像的四个角点对应的四个位置坐标；
通过透射变换处理所述四个位置坐标围成的文档区域，使所述文档区域转换为矩形，得到第五图像；
二值化处理所述第五图像，得到第六图像；
通过所述透射变换的逆变换处理所述第六图像，得到第三图像。

4.根据权利要求3所述的方法，其中，所述通过去摩尔纹算法去除所述第二图像中包含的摩尔纹，得到第四图像包括：
通过卷积神经网络处理所述第二图像，以便去除所述第二图像中包含的摩尔纹，其中，所述卷积神经网络包括下采样层、特征提取层以及上采样层，在所述下采样层中以步长为2的卷积层取代池化层的位置。...

【专利技术属性】
技术研发人员：吴大江，付靖玲，单珂，裴积全，
申请(专利权)人：京东数字科技控股有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人