一种文字图像生成方法、装置及终端制造方法及图纸

技术编号:15691530 阅读:59 留言:0更新日期:2017-06-24 04:48
本发明专利技术提供了一种文字图像生成方法、装置及终端,本发明专利技术可以通过采用颜色聚类算法随机产生多个背景色和文字颜色,从而弥补了现有技术中只是将二值化的文字图像与预设的颜色进行简单的混合造成的颜色单一和多样性差的不足。通过对图像进行的仿射变换、透射变换以及高斯变换等处理,为图像添加了自然环境中拍摄到的文字图像所特有的效果,使得处理后的图像更为逼真。本发明专利技术能够产生大数据量且逼真度高的文字图像,从而缓解深度学习引擎训练样本不足的现状,使得训练出来的深度学习引擎有更好的泛化能力。

Text image generating method, device and terminal

The invention provides a text image generation method, device and terminal, the invention can be achieved by the use of color clustering algorithm randomly generated a background color and text color, so as to make up for the existing technology is the binarization of text image and the preset colors lack of simple mixing caused by single color and diversity the. By the image affine transformation, transmission transformation and Gauss transform, the image is added to the natural environment to capture the text of the image of the unique effect, so that the processed image is more realistic. The invention can produce large amount of data and high fidelity text images, thereby alleviating the shortage of the training sample of the depth learning engine, and making the trained depth learning engine have better generalization ability.

【技术实现步骤摘要】
一种文字图像生成方法、装置及终端
本专利技术涉及图像处理领域,尤其涉及一种文字图像生成方法、装置及终端。
技术介绍
深度学习引擎可以应用于图片文字识别领域。现有的深度学习引擎大多基于神经网络,通过训练神经网络使得深度学习引擎具有准确识别出图片中的文字的能力。为训练神经网络需要大量的训练样本,但是现有的通过文本与预设图像合成的训练样本一般只是将在二值化的文字图像与预设的颜色进行简单的混合,请参考图1,图1(a)和图1(b)均是混合后的文字图像,这种混合导致训练样本的颜色单一和多样性差,从而无法满足深度学习引擎对训练数据多样性的要求。进一步地,在自然环境中拍摄到的文字图像通常具有一些特定的效果,比如文字的边缘颜色出现变化或者文字存在畸变,比如文字为倾斜的或者旋转的,而这些效果只通过简单的混合难以进行模拟,从而使得训练样本中的图像不自然,进而显著影响深度学习引擎的泛化能力。
技术实现思路
为了解决上述技术问题,本专利技术提出了一种文字图像生成方法、装置及终端。本专利技术具体是以如下技术方案实现的:第一方面,一种文字图像生成方法,所述方法包括:基于矢量字体和目标文字获取所述目标文字的二值化图像;从预设的彩色图片集中获取聚类图片集,根据所述聚类图片集聚类得到第一目标颜色、第二目标颜色和第三目标颜色;根据所述第一目标颜色、第二目标颜色和第三目标颜色对所述二值化图像进行着色以获取彩色图像;对所述彩色图像按照第一预设规则进行仿射变换;对经过仿射变换后的彩色图像按照第二预设规则进行透视变换;为经过透视变换后的彩色图像加入噪声以得到所述目标文字的目标图像。第二方面,一种文字图像生成装置,包括:二值化图像获取模块,用于基于矢量字体和目标文字获取所述目标文字的二值化图像;聚类颜色得到模块,用于从预设的彩色图片集中获取聚类图片集,根据所述聚类图片集聚类得到第一目标颜色、第二目标颜色和第三目标颜色;彩色图像获取模块,用于根据所述第一目标颜色、第二目标颜色和第三目标颜色对所述二值化图像进行着色以获取彩色图像;仿射模块,用于对所述彩色图像按照第一预设规则进行仿射变换;透视模块,用于对经过仿射变换后的彩色图像按照第二预设规则进行透视变换;目标图像得到模块,用于为经过透视变换后的彩色图像加入噪声以得到所述目标文字的目标图像。第三方面,一种文字图像生成终端,所述终端包括上述的文字图像生成装置。本专利技术的一种文字图像生成方法、装置及终端,具有如下有益效果:本专利技术基于颜色聚类得到三个目标颜色,并根据三个目标颜色对二值化的文字图像进行着色,从而使得着色后的文字图像涵盖更多的彩色图片集中的颜色信息,从而丰富文字图像的颜色和多样性;本专利技术通过对着色后的文字图像进行仿射变换、透视变换和噪声处理,从而为着色后的彩色图像加入了倾斜旋转、边缘阴影以及模拟噪声等畸变效果,进而使得得到的目标图像与摄像头拍摄出的自然场景中的文字图像的相似度更高,更加逼真。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。图1(a)现有技术生成的文字图像示意图;图1(b)现有技术生成的另一种文字图像示意图;图2是本专利技术实施例提供的一种文字图像生成方法流程图;图3是本专利技术实施例提供的二值化图像的获取方法的流程图;图4是本专利技术实施例提供的白底黑字的二值化图像;图5是本专利技术实施例提供的着色方法的流程图;图6是本专利技术实施例提供的仿射变换方法的流程图;图7是本专利技术实施例提供的仿射变换后的图像示意图;图8是本专利技术实施例提供的透视变换方法的流程图;图9是本专利技术实施例提供的透视变换后的图像示意图;图10是本专利技术实施例提供的高斯变换的方法流程图;图11是本专利技术实施例提供的基于输入图像的目标图像得到方法的;图12(a)是本专利技术实施例提供的多个目标图像的其中一个示意图;图12(b)是本专利技术实施例提供的多个目标图像的另一个示意图;图12(c)是本专利技术实施例提供的多个目标图像的另一个示意图;图12(d)是本专利技术实施例提供的多个目标图像的另一个示意图;图13是本专利技术实施例提供的获取目标颜色的方法的流程图;图14是本专利技术实施例提供的一种颜色聚类方法的流程图;图15是本专利技术实施例提供的一种文字图像生成装置框图;图16是本专利技术实施例提供的聚类颜色得到模块的框图;图17是本专利技术实施例提供的聚类结果得到单元的框图;图18是本专利技术实施例提供的仿射模块的框图;图19是本专利技术实施例提供的目标图像得到模块的框图;图20是本专利技术实施例提供的一种终端的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在以下的描述中,将描述本专利技术的多个不同的方面,然而,对于本领域内的普通技术人员而言,可以仅仅利用本专利技术的一些或者全部结构或者流程来实施本专利技术。为了解释的明确性而言,阐述了特定的数目、配置和顺序,但是很明显,在没有这些特定细节的情况下也可以实施本专利技术。在其他情况下,为了不混淆本专利技术,对于一些众所周知的特征将不再进行详细阐述。请参考图2,其示出了本专利技术实施例提供的一种文字图像生成方法流程图,所述方法包括:S101.基于矢量字体和目标文字获取所述目标文字的二值化图像。具体地,所述矢量字体和所述目标文字可以根据预设的算法进行设置,也可以由用户进行自行选择。所述矢量字体(Vectorfont)中每一个字形是通过数学曲线来描述的,它包含了字形边界上的关键点,连线的导数信息等,字体的渲染引擎通过读取这些数学矢量,然后进行一定的数学运算来进行渲染。矢量字体的优点是字体实际尺寸可以任意缩放而不变形或者变色。矢量字体包括但不限于Type1、TrueType和OpenType等几类,其中,Type1、TrueType和OpenType这三种格式都是与平台无关的。所述目标文字可以是承载语言的图像和/或符号,所述目标文字包括但不限于形意文字、意音文字和/或拼音文字。具体地,所述目标文字可以为常用的中文、英文、法文、西班牙文和/或俄文。请参考图3,其示出了二值化图像的获取方法的流程图,所述二值化图像的获取方法包括:S1011.基于矢量字体和目标文字获取包括所述目标文字的图像。S1012.以黑色为背景色,以白色为前景色渲染所述图像以得到所述目标文字的二值化图像。请参考图4,其示出了以中文字“活”为例,渲染出的白底黑字的二值化图像。S102.从预设的彩色图片集中获取聚类图片集,根据所述聚类图片集聚类得到第一目标颜色、第二目标颜色和第三目标颜色。S103.根据所述第一目标颜色、第二目标颜色和第三目标颜色对所述二值化图像进行着色以获取彩色图像。请参考图5,其示出了着色方法的流程图,所述着色方法包括:S1031.根据所述第一目标颜色设置所述二值化图像中的文字颜色;S1032.根据所述第二目标颜色设置所述二值化图像中的背景色;S1033.根本文档来自技高网...
一种文字图像生成方法、装置及终端

【技术保护点】
一种文字图像生成方法,其特征在于,所述方法包括:基于矢量字体和目标文字获取所述目标文字的二值化图像;从预设的彩色图片集中获取聚类图片集,根据所述聚类图片集聚类得到第一目标颜色、第二目标颜色和第三目标颜色;根据所述第一目标颜色、第二目标颜色和第三目标颜色对所述二值化图像进行着色以获取彩色图像;对所述彩色图像按照第一预设规则进行仿射变换;对经过仿射变换后的彩色图像按照第二预设规则进行透视变换;为经过透视变换后的彩色图像加入噪声以得到所述目标文字的目标图像。

【技术特征摘要】
1.一种文字图像生成方法,其特征在于,所述方法包括:基于矢量字体和目标文字获取所述目标文字的二值化图像;从预设的彩色图片集中获取聚类图片集,根据所述聚类图片集聚类得到第一目标颜色、第二目标颜色和第三目标颜色;根据所述第一目标颜色、第二目标颜色和第三目标颜色对所述二值化图像进行着色以获取彩色图像;对所述彩色图像按照第一预设规则进行仿射变换;对经过仿射变换后的彩色图像按照第二预设规则进行透视变换;为经过透视变换后的彩色图像加入噪声以得到所述目标文字的目标图像。2.根据权利要求1所述的方法,其特征在于,所述基于矢量字体和目标文字获取所述目标文字的二值化图像包括:基于矢量字体和目标文字获取包括所述目标文字的图像;以黑色为背景色,以白色为前景色渲染所述图像以得到所述目标文字的二值化图像。3.根据权利要求1所述的方法,其特征在于,所述聚类图片集包括一张或多张用于进行聚类的图片。4.根据权利要求3所述的方法,其特征在于,所述根据所述聚类图片集聚类得到第一目标颜色、第二目标颜色和第三目标颜色包括:根据预设的聚类方法对所述聚类图片集中的图片进行聚类以得到聚类结果;在所述聚类结果中选取第一目标颜色、第二目标颜色和第三目标颜色。5.根据权利要求4所述的方法,其特征在于,所述根据预设的聚类方法对所述聚类图片集中的图片进行聚类以得到聚类结果包括:在所述聚类图片集中选取用于聚类的图片;在所述图片中确定目标聚类个数k;在所述图片中选取k个颜色作为初始聚类中心;将所述图片中的每个像素分配至最近的初始聚类中心,形成k个簇:获取所述像素的颜色与初始聚类中心的欧几里得距离;获取所述欧几里得距离的最小值;将所述像素划分至所述最小值对应的初始聚类中心;计算k个簇中每个簇的聚类中心直至所述k个簇中任意一个簇中的所有像素的颜色到该任意一个簇的聚类中心的距离平方和达到最小值。6.根据权利要求5所述的方法,其特征在于,所述在所述图片中选取k个颜色作为初始聚类中心包括:利用所述图片中的像素的颜色形成k个集群的层次聚类;将层次聚类的k个集群的质心作为初始聚类中心。7.根据权利要求1所述的方法,其特征在于,根据所述第一目标颜色、第二目标颜色和第三目标颜色对所述二值化图像进行着色以获取彩色图像包括:根据所述第一目标颜色设置所述二值化图像中的文字颜色;根据所述第二目标颜色设置所述二值化图像中的背景色;根据所述第三目标颜色设置所述二值化图像中的文字边缘颜色。8.根据权利要求1所述的方法,其特征在于,所述对所述彩色图像按照第一预设规则进行仿射变换包括:设置旋转角度的变换范围和倾斜角度的变换范围;按照预设选取规则选取符合所述旋转角度的变换范围的旋转角度和符合所述倾斜角度的变换范围的倾斜角度;根据所述旋转角度和所述倾斜角度获取仿射变换矩阵;根据所述仿射变换矩阵对所述彩色图像进行仿射变换。9.根据权利要求1所述的方法,其特征在于,所述为经过透视变换后的彩色图像加入噪声以得到所述目标文字的目标图像包括:对经过透视变换后的彩色图像按照第三预设规则加入噪声;根据加入噪声后的图像与加入噪声前的图像...

【专利技术属性】
技术研发人员:李辉
申请(专利权)人:腾讯科技上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1