通用文本OCR的训练数据生成方法及系统技术方案

技术编号:34433457 阅读:51 留言:0更新日期:2022-08-06 16:13
本发明专利技术特别涉及一种通用文本OCR的训练数据生成方法,包括如下步骤:S100、随机选取语料库中的字符、字体库中的字体种类和大小得到文本信息;S200、随机选取背景库中的背景图像,并判断背景图像的RGB均值是否大于等于阈值;S300、根据背景图像的RGB均值计算出字符颜色的取值范围并随机字符颜色;S400、将文本信息按照选取的字符颜色贴合在背景图像上得到第一文本图像;S500、对第一文本图像执行数据增强得到第二文本图像,第二文本图像及其标签构成一个训练数据。该方法中,选取字符颜色的过程非常巧妙,只有简单的判断、加减,耗时非常短;使得训练数据的生成速度非常的快,速度提升非常的明显。升非常的明显。升非常的明显。

【技术实现步骤摘要】
通用文本OCR的训练数据生成方法及系统


[0001]本专利技术涉及文字识别方法
,特别涉及一种通用文本OCR的训练数据生成方法及系统。

技术介绍

[0002]随着机器学习和深度学习的发展,在光学字符识别(OCR)领域,深度学习算法的不断迭代更新,学习能力不断提高,由于深度学习是靠数据驱动的,所以结合数据生成算法生成大量的数据,可以获得很好的识别效果。
[0003]但是通用OCR领域涉及的场景非常多而且非常复杂,主要是体现在图像中文本行在不同场景下的放置角度变化很大(横向,纵向,倾斜等各种角度);背景图片越来越复杂(各种图案,颜色混合等复杂背景);图片中含有各类字体的文字混合,导致现有的数据生成算法达不到要求。具体来说,现有方法存在以下问题:其一,现有的数据生成算法主要是解决横向文本的训练数据生成,没有对竖直文本和倾斜角度较大的文本数据进行生成,导致这类数据(比如名称牌匾,广告牌等)在实际场景中识别效果很差;其二,现有的数据生成算法背景是由特定场景图片背景或者单一的纯色背景,对通用场景任务中包括各类图案,混合的颜色等等的复杂背景下的图片识别效果很差;其三,现有的数据生成算法字体采用特定字体或者指定字体,对数据图片(比如网页截图,广告牌等)中混合多种字体的情况的图片识别效果很差;其四,图片和文本融合的时候采用颜色差值算法决定文本颜色和背景颜色,现在的数据大多包含复杂的背景和各种颜色的文本,并且文本颜色和背景颜色有很好的对比度,颜色差值算法适用于颜色单一的背景来融合图片,面对复杂的背景生成的图片中文本和背景的对比度就很差,导致文本很模糊,识别效果较差。
[0004]为了避免上述不足,成都无糖信息技术有限公司的《一种基于机器学习的通用OCR的训练数据生成系统及方法》(公开号:CN112418224A),公开了如下技术方案:一种基于机器学习的通用OCR的训练数据生成方法,其包括以下步骤:文字信息生成:从语料库中随机抽取5

10个文字作为文字信息;字体信息生成:从字体库中随机选择字体生成字体信息;背景图片的选取、尺寸处理:从图片库中随机抽取背景图片,依据通过字体信息生成的文字信息对图片进行裁剪;文字颜色选取:1)判断裁剪出的背景图片的尺寸是否符合要求,否则对背景图片进行尺寸转换;2)对背景图片预处理转换成颜色序列数据;3)初始化聚类算法,然后对背景图片进行聚类分析,计算每个类别有多少数据并获取多个聚类中心;4)获取多个聚类中心所属的背景颜色值和到各个聚类中心的差值并对差值从大到小进行排序;5)从收集的文本文字颜色库中随机选取500个颜色作为候选颜色;6)根据背景颜色的差值排序结果,设置多个聚类中心的距离计算权重,排序越靠前的权重越大,依次计算每个随机选取的候选颜色到每个聚类中心的差值,将差值进行求和,获取候选颜色到背景颜色的差值,将每个候选颜色计算的差值进行从大到小排序;7)从候选颜色到背景颜色的差值距离计算结果中选取最大的200个颜色,然后从200个颜色中随机选择1

3种作为文本颜色;图片生成:将文字信息、字体信息、背景图片、文字颜色进行结合,生成一张可直接用于文本识别模型训
练的图片,并保存该图片的文本信息为标签数据。
[0005]通过上述方案,虽然能够实现OCR训练数据的生成,但由于其通过复杂的算法实现文字颜色的选取,导致其生成数据集的速度很慢。对于待训练的模型来说,用于训练的数据集样本数量动辄几十万、几百万,通过上述算法生成训练样本时,需要耗费非常多的时间。

技术实现思路

[0006]本专利技术的首要目的在于提供一种通用文本OCR的训练数据生成方法,能够快速生成OCR训练数据样本。
[0007]为实现以上目的,本专利技术采用的技术方案为:一种通用文本OCR的训练数据生成方法,包括如下步骤:S100、随机选取语料库中的字符、字体库中的字体种类和大小得到文本信息;S200、随机选取背景库中的背景图像,并判断背景图像的RGB均值pix_mean是否大于等于阈值k,,若是则执行下一步,否则重新随机选取背景图像;S300、根据背景图像的RGB均值pix_mean计算出字符颜色的取值范围,并从颜色库中随机选取满足该取值范围的字符颜色font_color;S400、将文本信息按照选取的字符颜色font_color贴合在背景图像上得到第一文本图像;S500、对第一文本图像执行数据增强得到第二文本图像,第二文本图像及其标签构成一个训练数据,所选取的字符内容即为第二文本图像的标签。
[0008]本专利技术的另一个目的在于提供一种通用文本OCR的训练数据生成系统,能够快速生成OCR训练数据样本。
[0009]为实现以上目的,本专利技术采用的技术方案为:一种通用文本OCR的训练数据生成系统,包括语料库、字体库、背景库、颜色库、数据生成模块以及数据增强模块;所述的语料库用于保存具有连续语义的文字数据,字体库、背景库、颜色库分别用于保存真实文本场景中的常用字体、背景图像、字符颜色;数据生成模块从语料库中随机选取字符、从字体库中随机选取字体及大小得到文本信息;数据生成模块随机选取背景库中的背景图像,并判断背景图像的RGB均值pix_mean是否大于等于阈值k,,若不是则重新随机选取背景图像,否则根据背景图像的RGB均值pix_mean计算出字符颜色的取值范围,并从颜色库中随机选取满足该取值范围的字符颜色font_color;数据生成模块将文本信息按照选取的字符颜色font_color贴合在背景图像上得到第一文本图像;数据增强模块对第一文本图像执行数据增强得到第二文本图像,第二文本图像及其标签构成一个训练数据,所选取的字符内容即为第二文本图像的标签。
[0010]与现有技术相比,上述方法和系统存在以下技术效果:本专利技术中,通过计算背景图像的RGB均值pix_mean以及设定的阈值k,首先排除掉深色的背景图像,尽量模拟真实文本场景;其次,根据pix_mean和k通过简单的加减计算出字符颜色的取值范围,最后从颜色库中随机选择满足该取值范围的字符颜色即可确定最终的文字颜色,该计算过程非常的巧妙,只有简单的判断、加减,耗时非常短;在此基础上,也使得训练数据的生成速度非常的快,经过我们的实测,训练100万张样本图片只需要短短的3个小时,而采用对比文件1的方案,则需要4.5~6个小时。
附图说明
[0011]图1是本专利技术的流程图;图2是本专利技术中随机生成的训练数据;图3是背景图像选取流程图;图4是文本贴合流程图;图5是本专利技术的结构框图。
具体实施方式
[0012]下面结合图1至图5,对本专利技术做进一步详细叙述。
[0013]参阅图1,本专利技术公开了一种通用文本OCR的训练数据生成方法,包括如下步骤:S100、随机选取语料库中的字符、字体库中的字体种类和大小得到文本信息;S200、随机选取背景库中的背景图像,并判断背景图像的RGB均值pix_mean是否大于等于阈值k,,若是则执行下一步,否则重新随机选取背景图像;S300、根据背景图像的RGB均值pix_mea本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种通用文本OCR的训练数据生成方法,其特征在于:包括如下步骤:S100、随机选取语料库中的字符、字体库中的字体种类和大小得到文本信息;S200、随机选取背景库中的背景图像,并判断背景图像的RGB均值pix_mean是否大于等于阈值k,,若是则执行下一步,否则重新随机选取背景图像;S300、根据背景图像的RGB均值pix_mean计算出字符颜色的取值范围,并从颜色库中随机选取满足该取值范围的字符颜色font_color;S400、将文本信息按照选取的字符颜色font_color贴合在背景图像上得到第一文本图像;S500、对第一文本图像执行数据增强得到第二文本图像,第二文本图像及其标签构成一个训练数据,所选取的字符内容即为第二文本图像的标签。2.如权利要求1所述的通用文本OCR的训练数据生成方法,其特征在于:所述的步骤S500中,数据增强包括添加边框、旋转、添加随机数学图形、细节增强滤波或高斯滤波、添加随机点噪声、形态学操作中的一种或多种。3.如权利要求2所述的通用文本OCR的训练数据生成方法,其特征在于:所述的添加边框为在文字的上、下、左、右四个方位中任意一个或多个方位中添加随机长度、随机宽度的线段;旋转角度为;随机数学图形中的数学图形为三角形、正方形、直线中的一种或多种,形态学操作为膨胀和/或腐蚀。4.如权利要求1所述的通用文本OCR的训练数据生成方法,其特征在于:所述的步骤S200中包括如下步骤:S210、随机选取背景库中的背景图像;S220、对背景图像进行剪裁,剪裁后的背景图像尺寸满足如下公式:式中,height和width是裁剪后背景图像的高和宽,N_max为所选取字符个数的最大值,height_font_max和width_font_max为所选取的最大字体的高和宽,为预留的边缘尺寸;S230、判断剪裁后的背景图像的RGB均值pix_mean是否大于等于阈值k,;若是则执行下一步,否则重新随机选取背景图像或重新剪裁背景图像。5.如权利要求4所述的通用文本OCR的训练数据生成方法,其特征在于:所述的步骤S400中包括如下步骤:S410、按如下公式随机选取文字贴合的起始坐标(x,y):式中,width_font和height_font是所选取的字体的宽和高,N为所选取...

【专利技术属性】
技术研发人员:田辉鲁国峰郭玉刚张志翔
申请(专利权)人:合肥高维数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1