一种适用于文字提取的数据增强方法技术

技术编号:37159254 阅读:15 留言:0更新日期:2023-04-06 22:23
本申请提供了一种适用于文字提取的数据增强方法,包括:采集印刷品图片,生成真实字符数据。随机选取多个基础字符组成字符字体库,设置所述基础字符的字体、字号。根据背景图片设置所述基础字符的起始位置,所述字符字体库中依次选取基础字符,根据所述基础字符的字号和所述背景图片的大小,设置所述背景图片相应的基础字符的数量。根据所述背景图片设置所述基础字符的颜色,所述基础字符与所述基础字符所在的背景图片的RGB均值的差值大于等于50;将所述基础字符贴附于所述背景图片上,生成字符图片。本申请通过灵活设置字符的字体、字号和颜色,提高数据模型的检测精度,提升模型对印刷品文字提取任务的效果。印刷品文字提取任务的效果。印刷品文字提取任务的效果。

【技术实现步骤摘要】
一种适用于文字提取的数据增强方法


[0001]本申请涉及印刷品文字提取
,尤其涉及一种适用于文字提取的数据增强方法。

技术介绍

[0002]在印刷领域,为了对印刷品质量进行检测,通常需要采用文字提取技术。印刷品的文字一键提取任务,是在印刷的包装中提取出文字,检测文字缺陷。
[0003]通过对印刷品表面的图案进行采集,提取图案内的文字,将提取到的采用数据模型对提取的文字进行检测,输出印刷品的文字的印刷质量。在利用数据模型进行检测前,需要将训练数据集输入数据模型,对数据模型进行训练。
[0004]印刷于包装表面的图案存在文字背景复杂、文字种类的数据不平衡、数据量不足的特性,在文字提取时导致背景复杂区域文字漏提、小号字体提取模糊、艺术字提取不到的问题,导致数据模型训练效果差。

技术实现思路

[0005]本申请提供了一种适用于文字提取的数据增强方法,以解决印刷品文字提取数据模型训练效果差的技术问题。
[0006]为解决以上问题,本申请提供了一种适用于文字提取的数据增强方法,包括:
[0007]采集印刷品图片,生成真实字符数据;
[0008]随机选取多个基础字符组成字符字体库,设置所述基础字符的字体、字号;
[0009]根据背景图片设置所述基础字符的起始位置,所述字符字体库中依次选取基础字符,根据所述基础字符的字号和所述背景图片的大小,设置所述背景图片相应的基础字符的数量;
[0010]根据所述背景图片设置所述基础字符的颜色,所述基础字符与所述基础字符所在的背景图片的RGB均值的差值大于等于50;
[0011]将所述基础字符贴附于所述背景图片上,生成字符图片。
[0012]可选的,所述的适用于文字提取的数据增强方法还包括:将所述字符图片中的基础字符所在区域背景设置为纯,。
[0013]可选的,所述的适用于文字提取的数据增强方法还包括:还包括:根据背景图片尺寸生成标签矩阵,其中,字符所在区域设置值为1,其他区域设置值为0。
[0014]可选的,所述设置所述基础字符的字体、字号,包括:
[0015]设置所述基础字符的字号在12

20的数量占全部基础字符的40%;
[0016]设置所述基础字符的字号在50

70的数量占全部基础字符的40%;
[0017]设置所述基础字符的字号在20

50的数量占全部基础字符的20%。
[0018]可选的,所述设置所述基础字符的字体、字号,包括:根据基础字符设置字符字体库,其中字符字体库包括正常子字体库和艺术子字体库;
[0019]设置所述正常子字体库与所述艺术子字体库中字符数量之比为1:4。
[0020]可选的,所述将所述基础字符贴附于所述背景图片上,生成字符图片前,还包括:对所述基础字符进行模糊化设置。
[0021]可选的,所述根据背景图片设置所述基础字符的起始位置,包括:随机选取所述基础字符在所述背景图片中的起始位置。
[0022]可选的,所述设置所述基础字符的字体、字号,包括:分析所述真实字符数据,得到真实字符分类信息表;根据所述真实字符分类信息表,设置所述基础字符的字体和字号,使得所述基础字符与所述真实字符数据组合后的不同字体的字符数量一致。
[0023]有益效果:
[0024]本申请提供了一种适用于文字提取的数据增强方法,包括:采集印刷品图片,生成真实字符数据。随机选取多个基础字符组成字符字体库,设置所述基础字符的字体、字号。根据背景图片设置所述基础字符的起始位置,所述字符字体库中依次选取基础字符,根据所述基础字符的字号和所述背景图片的大小,设置所述背景图片相应的基础字符的数量。根据所述背景图片设置所述基础字符的颜色,所述基础字符与所述基础字符所在的背景图片的RGB均值的差值大于等于50;将所述基础字符贴附于所述背景图片上,生成字符图片。本申请使用在图片中贴文字的方式生成数据集,通过灵活设置字符的字体、字号和颜色,平衡采集到的真实数据无法达到数据均匀分布的问题,提高数据模型的检测精度,提升模型对印刷品文字提取任务的效果。
附图说明
[0025]为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0026]图1为本申请实施例示出的一种适用于文字提取的数据增强方法流程示意图。
具体实施方式
[0027]图1为本申请实施例示出的一种适用于文字提取的数据增强方法流程示意图。如图中所示,为解决印刷品文字提取数据模型训练效果差的技术问题,本申请提供的适用于文字提取的数据增强方法包括:随机选取文章,将文章中的字符打乱制作基础字符。随机设置基础字符的字体、字号,使得生成的字符与实际数据组合后的字体、字号分布均匀。根据背景图片设置基础字符的颜色,基础字符与背景图片的三通道像素差值平方的平均值大于50。设置基础字符在背景图片的起始位置,根据基础字符的字号和背景图片的大小,设置相应背景图片上的基础字符,生成字符图片。本申请通过在背景图片中设置基础字符,模拟真实场景下的印刷文字,通过对基础字符的字体、字号的设置,可避免真实数据中文字背景复杂、文字种类的数据不平衡、数据量不足的特性,提高数据模型的检测精度。
[0028]S100:随机选取一篇中文文献和一篇英文文章,将文章中的字符打乱制作基础字符。由于在印刷包装上的文字具有中文、英文、数字和各种标点符号等字符,所以在中文和英文文章中收集一系列字符并进行打乱,作为基础字符。
[0029]S200:根据基础字符设置字符字体库,其中字符字体库包括正常子字体库和艺术
子字体库。
[0030]随机设置基础字符的字体,为了使得生成的字符与实际数据组合后的字体种类分布均匀,设置正常子字体库与艺术子字体库中字符数量之比为1:4。
[0031]在本申请的实施例中,还可根据实际字符数据进行正常子字体库和艺术子字体库中字符数量的设置。
[0032]对实际数据集中的实际字符数据进行分类分析,得到已有数据集的字符分类信息表。分类信息表包括字体、字号和数量。
[0033]在本申请的一些示例中,整个数据增强方法基于字符进行表述,此处的字符可以是中文、英文、数字、标号中的任意一种,并不是特定的某一类,且不做字符种类的区分。将实际数据集中的数据按照字符特征进行分类,字符特征类别包括:字体、型号。
[0034]其中字体包括:宋体、黑体、楷体、华文、录书、等线等Word文档中包含的全部字体类型。
[0035]根据字符分类信息表,设置正常子字体库与艺术子字体库中字符数量,使得训练数据集中的各个字符种类对应的数量一致。选取基础字符的字体,字符的字体通过windows系统中携带的字体,选取等线、仿宋、黑体、华文彩云、楷体等多种字体。选取基础字符的字号,使本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种适用于文字提取的数据增强方法,其特征在于,包括:采集印刷品图片,生成真实字符数据;随机选取多个基础字符组成字符字体库,设置所述基础字符的字体、字号;根据背景图片设置所述基础字符的起始位置,所述字符字体库中依次选取基础字符,根据所述基础字符的字号和所述背景图片的大小,设置所述背景图片相应的基础字符的数量;根据所述背景图片设置所述基础字符的颜色,所述基础字符与所述基础字符所在的背景图片的RGB均值的差值大于等于50;将所述基础字符贴附于所述背景图片上,生成字符图片。2.根据权利要求1所述的适用于文字提取的数据增强方法,其特征在于,还包括:将所述字符图片中的基础字符所在区域背景设置为纯色。3.根据权利要求2所述的适用于文字提取的数据增强方法,其特征在于,还包括:根据背景图片尺寸生成标签矩阵,其中,字符所在区域设置值为1,其他区域设置值为0。4.根据权利要求1所述的适用于文字提取的数据增强方法,其特征在于,所述设置所述基础字符的字体、字号,包括:设置所述基础字符的字号在12

20的数量占全部基础字符的40%;设置所述基础字符的字号在50
‑...

【专利技术属性】
技术研发人员:张昀珂杨艺
申请(专利权)人:凌云光技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1