文本图像生成方法、装置及电子设备制造方法及图纸

技术编号:33652609 阅读:18 留言:0更新日期:2022-06-02 20:31
本公开涉及一种文本图像生成方法、装置及电子设备,所述方法包括:从语料库中获取预定长度的文本序列;基于预先设定的参数对所述文本序列进行调节,合成原始文本前景图像;根据前景渲染策略,对所述原始文本前景图像进行前景渲染,生成文本前景图像;获取背景图像,将所述文本前景图像和所述背景图像合并,生成合并后的图像;根据整体图像渲染策略对所述合并后的图像进行整体图像渲染,得到最终的文本图像,并将所述文本序列作为所述最终的文本图像的内容标签。的内容标签。的内容标签。

【技术实现步骤摘要】
文本图像生成方法、装置及电子设备


[0001]本公开涉及图像处理领域,具体地,涉及一种文本图像生成方法、装置及电子设备。

技术介绍

[0002]在教育场景中,试卷、PPT、书籍等教学材料中有大量的文字,师生们需要提取图片格式下的文字内容,诸如错题收集、试卷题目归档、书籍转可编辑格式等常见的教学任务中都需要文字识别技术,因此对于文字识别技术有着较大需求。
[0003]当前文字识别需要使用大量的文本行图像进行模型训练,且文本行识别训练是监督学习的过程,需要明确每一条文本行图像对应的文字标注内容。含有内容标注的文字图像是极其重要但十分稀缺的一环。业内常常采用场景字符识别等公开数据集,依靠标注人员进行手工标注,或者将文字标签直接保存为图像,通过一些简单的裁剪转化为文本行图像。
[0004]现有公开的场景字符识别数据集多从自然场景收集,诸如街景图像等。这种场景字符识别图像的文字样式与教育场景的文字相差甚远,因此采用这种数据训练得到的模型,在教育场景下的识别准确率较低。
[0005]对于人工标注,投入人力进行文本行内容标注是一件极为耗时耗力的工作,并且人工标注的文本行内容准确率难以保障,如有标签错误的脏数据进入模型训练,易降低模型推理时的准确率。
[0006]而将文字标签直接保存为图像这种方案只能获得类似扫描样式的文本行图片,难以模拟真实场景下纸张文字质地,也难以模拟诸如光照、阴影等真实的自然拍照文字效果。
[0007]可见,现有技术中存在当前教育场景下用于文字识别训练的文字图像数据集欠缺的技术问题。

技术实现思路

[0008]本公开的目的是提供一种文本图像生成方法、装置及电子设备,用于现有技术中存在的当前教育场景下用于文字识别训练的文字图像数据集欠缺的技术问题。
[0009]为了实现上述目的,本公开第一方面提供一种用于文字识别模型训练的文本图像生成方法,所述方法包括:
[0010]从语料库中获取预定长度的文本序列;
[0011]基于预先设定的参数对所述文本序列进行调节,合成原始文本前景图像;
[0012]根据前景渲染策略,对所述原始文本前景图像进行前景渲染,生成文本前景图像;
[0013]获取背景图像,将所述文本前景图像和所述背景图像合并,生成合并后的图像;
[0014]根据整体图像渲染策略对所述合并后的图像进行整体图像渲染,得到最终的文本图像,并将所述文本序列作为所述最终的文本图像的内容标签。
[0015]可选的,基于预先设定的参数对所述文本序列进行调节,合成原始文本前景图像,
包括:
[0016]对所述文本序列中需要合成的文字进行文字样式初始化,所述文字样式包括字体类别、字体大小、字体颜色、字符之间的间距和文本空格的实际像素宽度中一种或多种组合;
[0017]计算所述文本序列中的每个字符的宽度、高度和字符之间距离,得到所述文本序列中的每个字符在待合成的原始文本前景图像中的位置;
[0018]基于所述每个字符在所述待合成的原始文本前景图像中的位置,计算所述待合成的原始文本前景图像的原始像素尺寸;
[0019]根据所述原始像素尺寸,初始化一张图像;其中,初始化图像的尺寸等于所述原始像素尺寸;或者,初始化图像的宽度等于原始像素尺寸的宽度,初始化图像的高度大于原始像素尺寸的高度;
[0020]按照所述每个字符在待合成的原始文本前景图像中的位置,将所述每个字符绘制在所述初始化图像上,合成所述原始文本前景图像。
[0021]可选的,在初始化图像的宽度等于原始像素尺寸的宽度,初始化图像的高度大于原始像素尺寸的高度时,根据前景渲染策略,对所述原始文本前景图像进行前景渲染,生成文本前景图像,包括:
[0022]根据所述原始文本前景图像,按照随机概率值判定是否需要在所述原始文本前景图像中的字符下方绘制字符标记;
[0023]如果判定需要,则根据预先设定的合成模式,选定所述字符标记的绘制宽度、起始位置,并根据所述绘制宽度和所述起始位置计算终止位置;
[0024]以所述起始位置处的字符下方为起点,以所述终止位置处的字符下方为终点,绘制所述字符标记,生成所述文本前景图像;其中,所述字符标记为下划线或着重符;所述预先设定的合成模式为固定字符合成模式、随机字符合成模式和全字符合成模式。
[0025]可选的,根据前景渲染策略,对所述原始文本前景图像进行前景渲染,生成文本前景图像,包括:
[0026]计算所述原始文本前景图像的二值化图像;
[0027]根据预先设置的过滤模板和过滤规则,对所述原始文本前景图像按照自左向右,自上向下的顺序过滤,生成过滤后的所述文本前景图像;
[0028]其中,所述过滤模板的纵向像素点数量大于所述过滤模板的横向像素点数量;所述过滤规则是指选择所述过滤模板与所述二值化图像的重叠区域内的最小像素值作为所述二值化图像中的当前重叠区域中心点的像素值。
[0029]可选的,根据前景渲染策略,对所述原始文本前景图像进行前景渲染,生成文本前景图像,包括:
[0030]基于目标方向扭曲公式,计算所述原始文本前景图像在正交方向上的一维位置向量在所述目标方向扭曲公式下的目标方向偏移量,并记录所述目标方向偏移量;其中,所述目标方向为垂直方向时,所述正交方向为水平方向;所述目标方向为水平方向时,所述正交方向为垂直方向;
[0031]根据所述目标方向偏移量,计算整体相对偏移量的最大范围;
[0032]根据待合成的文本图像的原始像素尺寸和所述整体相对偏移量的最大范围;
[0033]创建一张新的前景图像,并根据所述原始文本前景图像的尺寸和所述整体相对偏移量的最大范围计算新创建的前景图像的尺寸;
[0034]将所述原始文本前景图像中的每个一维位置向量上的图像向量,按照所述每个一维位置向量对应的目标方向偏移量,在所述新创建的前景图像上重建,生成所述文本前景图像。
[0035]可选的,垂直扭曲公式为以下任一种;
[0036][0037][0038][0039][0040]其中,F
v_sin
代表正弦曲线扭曲公式,F
v_cos
代表余弦曲线扭曲公式,F
v_rsin
代表反正弦曲线扭曲公式,F
v_rcos
代表反余弦曲线扭曲公式;x是横轴坐标,自[0,W
f

1]之间取值,W
f
是原始文本前景图像的宽度,ratio是正余弦的频率调节参数,K是正余弦的振幅调节参数,H
f
是原始文本前景图像的高度;
[0041]水平扭曲公式为
[0042][0043]其中,x是纵轴坐标,自[0,H
f

1]之间取值,H
f
是原始文本前景图像的高度,D
char
是平均字符宽度,ratio是平移系数。
[0044]可选的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于文字识别模型训练的文本图像生成方法,其特征在于,所述方法包括:从语料库中获取预定长度的文本序列;基于预先设定的参数对所述文本序列进行调节,合成原始文本前景图像;根据前景渲染策略,对所述原始文本前景图像进行前景渲染,生成文本前景图像;获取背景图像,将所述文本前景图像和所述背景图像合并,生成合并后的图像;根据整体图像渲染策略对所述合并后的图像进行整体图像渲染,得到最终的文本图像,并将所述文本序列作为所述最终的文本图像的内容标签。2.如权利要求1所述的方法,其特征在于,基于预先设定的参数对所述文本序列进行调节,合成原始文本前景图像,包括:对所述文本序列中需要合成的文字进行文字样式初始化,所述文字样式包括字体类别、字体大小、字体颜色、字符之间的间距和文本空格的实际像素宽度中一种或多种组合;计算所述文本序列中的每个字符的宽度、高度和字符之间距离,得到所述文本序列中的每个字符在待合成的原始文本前景图像中的位置;基于所述每个字符在所述待合成的原始文本前景图像中的位置,计算所述待合成的原始文本前景图像的原始像素尺寸;根据所述原始像素尺寸,初始化一张图像;其中,初始化图像的尺寸等于所述原始像素尺寸;或者,初始化图像的宽度等于原始像素尺寸的宽度,初始化图像的高度大于原始像素尺寸的高度;按照所述每个字符在待合成的原始文本前景图像中的位置,将所述每个字符绘制在所述初始化图像上,合成所述原始文本前景图像。3.如权利要求要求2所述的方法,其特征在于,在初始化图像的宽度等于原始像素尺寸的宽度,初始化图像的高度大于原始像素尺寸的高度时,根据前景渲染策略,对所述原始文本前景图像进行前景渲染,生成文本前景图像,包括:根据所述原始文本前景图像,按照随机概率值判定是否需要在所述原始文本前景图像中的字符下方绘制字符标记;如果判定需要,则根据预先设定的合成模式,选定所述字符标记的绘制宽度、起始位置,并根据所述绘制宽度和所述起始位置计算终止位置;以所述起始位置处的字符下方为起点,以所述终止位置处的字符下方为终点,绘制所述字符标记,生成所述文本前景图像;其中,所述字符标记为下划线或着重符;所述预先设定的合成模式为固定字符合成模式、随机字符合成模式和全字符合成模式。4.如权利要求要求1所述的方法,其特征在于,根据前景渲染策略,对所述原始文本前景图像进行前景渲染,生成文本前景图像,包括:计算所述原始文本前景图像的二值化图像;根据预先设置的过滤模板和过滤规则,对所述原始文本前景图像按照自左向右,自上向下的顺序过滤,生成过滤后的所述文本前景图像;其中,所述过滤模板的纵向像素点数量大于所述过滤模板的横向像素点数量;所述过滤规则是指选择所述过滤模板与所述二值化图像的重叠区域内的最小像素值作为所述二值化图像中的当前重叠区域中心点的像素值。5.如权利要求要求1所述的方法,其特征在于,根据前景渲染策略,对所述原始文本前
景图像进行前景渲染,生成文本前景图像,包括:基于目标方向扭曲公式,计算所述原始文本前景图像在正交方向上的一维位置向量在所述目标方向扭曲公式下的目标方向偏移量,并记录所述目标方向偏移量;其中,所述目标方向为垂直方向时,所述正交方向为水平方向;所述目标方向为水平方向时,所述正交方向为垂直方向;根据所述目标方向偏移量,计算整体相对偏移量的最大范围;根据待合成的文本图像的原始像素尺寸和所述整体相对偏移量的最大范围;创建一张新的前景图像,并根据所述原始文本前景图像的尺寸和所述整体相对偏移量的最大范围计算新创建的前景图像的尺寸;将所述原始文本前景图像中的每个一维位置向量上的图像向量,按照所述每个一维位置向量对应的目标方向偏移量,在所述新创建的前景图像上重建,生成所述文本前景图像。6.如权利要求4所述的方法,其特征在于,垂直扭曲公式为以下任一种;6.如权利要求4所述的方法,其特征在于,垂直扭曲公式为以下任一种;6.如权利要求4所述的方法,其特征在于,垂直扭曲公式为以下任一种;6.如权利要求4所述的方法,其特征在于,垂直扭曲公式为以下任一种;其中,F
v_sin
代表正弦曲线扭曲公式,F
v_cos
代表余弦曲线扭曲公式,F
v_rsin
代表反正弦曲线扭曲公式,F
v_rcos
代表反余弦曲线扭曲公式;x是横轴坐标,自[0,W
f

1]之间取值,W
f
是原始文本前景图像的宽度,ratio是正余弦的频率调节参数,K是正余弦的振幅调节参数,H
f
是原始文本前景图像的高度;水平扭曲公式为其中,x是纵轴坐标,自[0,H
f

1]之间取值,H
f
是原始文本前景图像的高度,D
char
是平均字符宽度,ratio是平移系数。7.如权利要求1所述的方法,其特征在于,根据前景渲染策略,对所述原始文本前景图像进行前景渲染,生成文本前景图像,包括:根据预先设置的旋转矩阵计算旋转后的像素...

【专利技术属性】
技术研发人员:王彦君马志国张飞飞
申请(专利权)人:北京鼎事兴教育咨询有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1