一种增强文本合成图像的生成方法和系统技术方案

技术编号:32510038 阅读:21 留言:0更新日期:2022-03-02 10:52
本发明专利技术涉及一种增强文本合成图像的生成方法和系统,方法包括:获取目标场景和真实数据,根据目标场景收集目标字体、背景和语料,对真实数据进行字符标注和切割,构成单字符图像库;获取字体配置,根据收集的语料进行语料筛选,然后从目标字体和单字符图像库中选取字符,拼接为字符串,生成字符图像;基于真实数据中的场景图片,生成背景图片;根据字体配置和字符图像生成位置区域,并与背景图片拼接,得到文本图像;对合成的文本图像的边缘进行字符笔画的消除,得到新的文本图像。与现有技术相比,本发明专利技术实现在保证合成图像复杂性的前提下,利用好小样本的真实数据快速进行文本图像合成,同时一定程度上解决文本检测导致的边缘识别出错的问题。识别出错的问题。识别出错的问题。

【技术实现步骤摘要】
一种增强文本合成图像的生成方法和系统


[0001]本专利技术涉及文本图像合成
,尤其是涉及一种增强文本合成图像的生成方法和系统。

技术介绍

[0002]在OCR领域中,大部分的任务都需要复杂且不重复但相似的图像数据,来训练模型,一般认为,数据越多,模型识别的鲁棒性和准确性越高。由于人工标记图像费时费力,所以诞生了许多合成图像的方法,最常见的就是基于生成对抗网络的图像合成方式以及传统的SynthText类的文字图像合成方式,前者可以保留文本图像的风格,后者简单易用。虽然上述两种方式可以完成大部分图像合成任务,但仍然存在一些缺点。比如:现有的大部分基于GAN的图片合成方式会提取背景,保留文字风格,但在遇到阴影,发光,粗体等复杂风格时,合成的新字符与原图的风格,尤其是在字形上相差甚远,同时在合成的语料长度与原图不一致时,也无法获得很好的合成结果,导致训练时效果很好,但是在实际应用中不尽如人意;而传统的SynthText类的方法使用将文字写入背景图的方式,使用的噪声比较规则,无法模拟真实场景,图像的复杂度不够,容易导致过拟合。
[0003]另外,在真实场景的测试中,经常可以发现:由于OCR检测阶段文本框边缘距文字中心距离的不合理,导致文本识别时对文本边缘的检测经常出错;同时仅使用合成数据进行训练,无法得到很好的识别效果,合理利用小样本的真实数据与大量的合成数据,是提升识别效果的关键。

技术实现思路

[0004]本专利技术的目的就是为了克服上述现有技术存在仅使用合成数据进行训练,无法得到很好的识别效果的缺陷而提供一种合理利用小样本的真实数据与大量的合成数据的增强文本合成图像的生成方法和系统。
[0005]本专利技术的目的可以通过以下技术方案来实现:
[0006]一种增强文本合成图像的生成方法,包括以下步骤:
[0007]文本信息收集步骤:获取目标场景和真实数据,根据目标场景收集目标字体、背景和语料,对所述真实数据进行字符标注,切割为单个字符,构成单字符图像库;
[0008]文本图像合成步骤:获取字体配置,根据收集的语料进行语料筛选,从收集的目标字体和单字符图像库中,根据筛选出的语料选取字符,拼接为字符串,生成字符图像;基于所述真实数据中的场景图片,生成背景图片;根据所述字体配置和字符图像生成位置区域,并与所述背景图片拼接,得到文本图像。
[0009]进一步地,所述拼接为字符串的过程具体为:
[0010]根据获取的字符,构建不同字符类型的列表,将筛选出的语料作为模板字符串;
[0011]将模板字符串中不同类型的字符给予不同的标记,每个标记对应不同的字符类型的列表;
[0012]遍历所述模板字符串,遇到每个标记,则从对应字符类型的列表中选取字符,最终拼接为字符串,并重复进行预设的第一次数,得到第一次数的字符串结果。
[0013]进一步地,生成的所述位置区域包括生成字符图像的左上角横坐标和左上角纵坐标,所述字符图像的左上角横坐标和左上角纵坐标的计算表达式为:
[0014]wordX=(bgWidth

wordWidth)/2
[0015]wordY=(bgHeight

wordHeight)/2
[0016]式中,wordX为字符图像的左上角横坐标,wordY为字符图像的左上角纵坐标,bgWidth为文本图像中背景图的宽度,bgHeight为文本图像中背景图的高度,wordWidth为字符图像的宽度,wordHeight为字符图像的高度。
[0017]进一步地,所述增强文本合成图像的生成方法还包括字符边缘处理步骤:对合成的文本图像的边缘进行字符笔画的消除,得到新的文本图像。
[0018]进一步地,所述对合成的文本图像的边缘进行字符笔画的消除包括确定删除边缘部分的高度、宽度和左上角坐标,从而对合成的文本图像的边缘进行字符笔画的消除;
[0019]删除边缘部分的高度和宽度的计算表达式为:
[0020]patchWidth=random(minWRatio,maxWRatio
×
charWidth
[0021]patchHeight=random(minHRatio,maxHRatio
×
charHeight
[0022]式中,patchWidth为删除边缘部分的宽度,patchHeight为删除边缘部分的高度,minWRatio为删除边缘部分的宽度比例最小值,maxWRatio为删除边缘部分的宽度比例最大值,minHRatio为删除边缘部分的高度比例最小值,maxHRatio为删除边缘部分的高度比例最大值,random为随机函数,charWidth为单个字符宽度,charHeight为单个字符高度。
[0023]进一步地,删除边缘部分的左上角坐标的计算表达式为:
[0024][0025][0026]式中,patchX为删除边缘部分的左上角横坐标,patchY为删除边缘部分的左上角纵坐标,bgX为文本图像中背景图的左上角横坐标,bgY为文本图像中背景图的左上角纵坐标,bgWidth为文本图像中背景图的宽度,bgHeight为文本图像中背景图的高度,loc为删除边缘部分本身的位置,right为背景图的右侧,left为背景图的左侧,up为背景图的顶部,bottom为背景图的底部。
[0027]进一步地,所述增强文本合成图像的生成方法还包括对获取的文本图像增加噪声、增加透视变化、增加颜色、画线、使字符发光和/或增加文字阴影。
[0028]进一步地,基于所述真实数据中的场景图片,生成背景图片具体为:
[0029]从真实数据中的场景图片中截取部分区域,采用平铺的方式进行扩展,得到背景图片。
[0030]进一步地,所述字体配置包括字体类型、字号、间距和颜色配置。
[0031]本专利技术还提供一种增强文本合成图像的生成系统,包括:
[0032]文本信息收集模块,被配置为,获取目标场景和真实数据,根据目标场景收集目标字体、背景和语料,对所述真实数据进行字符标注,切割为单个字符,构成单字符图像库;
[0033]文本图像合成模块,被配置为,获取字体配置,根据收集的语料进行语料筛选,从收集的目标字体和单字符图像库中,根据筛选出的语料选取字符,拼接为字符串,生成字符图像;基于所述真实数据中的场景图片,生成背景图片;根据所述字体配置和字符图像生成位置区域,并与所述背景图片拼接,得到文本图像;
[0034]文本图像后处理模块,被配置为,对合成的文本图像的边缘进行字符笔画的消除,得到新的文本图像。
[0035]与现有技术相比,本专利技术具有以下优点:
[0036](1)本专利技术针对现实场景中样本数据较小这一问题,为了更充分利用真实数据的特征,将文本图片分割成一个一个单个字符图片,在合成数据时,与合成数据进行拼接,让合成数据更加真实,同时可以更充分利用小样本的真实数据。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种增强文本合成图像的生成方法,其特征在于,包括以下步骤:文本信息收集步骤:获取目标场景和真实数据,根据目标场景收集目标字体、背景和语料,对所述真实数据进行字符标注,切割为单个字符,构成单字符图像库;文本图像合成步骤:获取字体配置,根据收集的语料进行语料筛选,从收集的目标字体和单字符图像库中,根据筛选出的语料选取字符,拼接为字符串,生成字符图像;基于所述真实数据中的场景图片,生成背景图片;根据所述字体配置和字符图像生成位置区域,并与所述背景图片拼接,得到文本图像。2.根据权利要求1所述的一种增强文本合成图像的生成方法,其特征在于,所述拼接为字符串的过程具体为:根据获取的字符,构建不同字符类型的列表,将筛选出的语料作为模板字符串;将模板字符串中不同类型的字符给予不同的标记,每个标记对应不同的字符类型的列表;遍历所述模板字符串,遇到每个标记,则从对应字符类型的列表中选取字符,最终拼接为字符串,并重复进行预设的第一次数,得到第一次数的字符串结果。3.根据权利要求1所述的一种增强文本合成图像的生成方法,其特征在于,生成的所述位置区域包括生成字符图像的左上角横坐标和左上角纵坐标,所述字符图像的左上角横坐标和左上角纵坐标的计算表达式为:wordX=(bgWidth

wordWidth)/2wordY=(bgHeight

wordHeight)/2式中,wordX为字符图像的左上角横坐标,wordY为字符图像的左上角纵坐标,bgWidth为文本图像中背景图的宽度,bgHeight为文本图像中背景图的高度,wordWidth为字符图像的宽度,wordHeight为字符图像的高度。4.根据权利要求1所述的一种增强文本合成图像的生成方法,其特征在于,所述增强文本合成图像的生成方法还包括字符边缘处理步骤:对合成的文本图像的边缘进行字符笔画的消除,得到新的文本图像。5.根据权利要求4所述的一种增强文本合成图像的生成方法,其特征在于,所述对合成的文本图像的边缘进行字符笔画的消除包括确定删除边缘部分的高度、宽度和左上角坐标,从而对合成的文本图像的边缘进行字符笔画的消除;删除边缘部分的高度和宽度的计算表达式为:patchWidth=random(minWRatio,maxWRatio)
×
charWidthpatchHeight=random(minHRatio...

【专利技术属性】
技术研发人员:黄珊
申请(专利权)人:上海仪电人工智能创新院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1