一种文字图像生成方法、装置及终端制造方法及图纸

技术编号：15691530 阅读：59 留言：0更新日期：2017-06-24 04:48

本发明专利技术提供了一种文字图像生成方法、装置及终端，本发明专利技术可以通过采用颜色聚类算法随机产生多个背景色和文字颜色，从而弥补了现有技术中只是将二值化的文字图像与预设的颜色进行简单的混合造成的颜色单一和多样性差的不足。通过对图像进行的仿射变换、透射变换以及高斯变换等处理，为图像添加了自然环境中拍摄到的文字图像所特有的效果，使得处理后的图像更为逼真。本发明专利技术能够产生大数据量且逼真度高的文字图像，从而缓解深度学习引擎训练样本不足的现状，使得训练出来的深度学习引擎有更好的泛化能力。

Text image generating method, device and terminal

The invention provides a text image generation method, device and terminal, the invention can be achieved by the use of color clustering algorithm randomly generated a background color and text color, so as to make up for the existing technology is the binarization of text image and the preset colors lack of simple mixing caused by single color and diversity the. By the image affine transformation, transmission transformation and Gauss transform, the image is added to the natural environment to capture the text of the image of the unique effect, so that the processed image is more realistic. The invention can produce large amount of data and high fidelity text images, thereby alleviating the shortage of the training sample of the depth learning engine, and making the trained depth learning engine have better generalization ability.

全部详细技术资料下载

【技术实现步骤摘要】
一种文字图像生成方法、装置及终端
本专利技术涉及图像处理领域，尤其涉及一种文字图像生成方法、装置及终端。
技术介绍
深度学习引擎可以应用于图片文字识别领域。现有的深度学习引擎大多基于神经网络，通过训练神经网络使得深度学习引擎具有准确识别出图片中的文字的能力。为训练神经网络需要大量的训练样本，但是现有的通过文本与预设图像合成的训练样本一般只是将在二值化的文字图像与预设的颜色进行简单的混合，请参考图1，图1(a)和图1(b)均是混合后的文字图像，这种混合导致训练样本的颜色单一和多样性差，从而无法满足深度学习引擎对训练数据多样性的要求。进一步地，在自然环境中拍摄到的文字图像通常具有一些特定的效果，比如文字的边缘颜色出现变化或者文字存在畸变，比如文字为倾斜的或者旋转的，而这些效果只通过简单的混合难以进行模拟，从而使得训练样本中的图像不自然，进而显著影响深度学习引擎的泛化能力。
技术实现思路
为了解决上述技术问题，本专利技术提出了一种文字图像生成方法、装置及终端。本专利技术具体是以如下技术方案实现的：第一方面，一种文字图像生成方法，所述方法包括：基于矢量字体和目标文字获取所述目标文字的二值化图像；从预设的彩色图片集中获取聚类图片集，根据所述聚类图片集聚类得到第一目标颜色、第二目标颜色和第三目标颜色；根据所述第一目标颜色、第二目标颜色和第三目标颜色对所述二值化图像进行着色以获取彩色图像；对所述彩色图像按照第一预设规则进行仿射变换；对经过仿射变换后的彩色图像按照第二预设规则进行透视变换；为经过透视变换后的彩色图像加入噪声以得到所述目标文字的目标图像。第二方面，一种文字图像生...
一种文字图像生成方法、装置及终端

【技术保护点】
一种文字图像生成方法，其特征在于，所述方法包括：基于矢量字体和目标文字获取所述目标文字的二值化图像；从预设的彩色图片集中获取聚类图片集，根据所述聚类图片集聚类得到第一目标颜色、第二目标颜色和第三目标颜色；根据所述第一目标颜色、第二目标颜色和第三目标颜色对所述二值化图像进行着色以获取彩色图像；对所述彩色图像按照第一预设规则进行仿射变换；对经过仿射变换后的彩色图像按照第二预设规则进行透视变换；为经过透视变换后的彩色图像加入噪声以得到所述目标文字的目标图像。

【技术特征摘要】
1.一种文字图像生成方法，其特征在于，所述方法包括：基于矢量字体和目标文字获取所述目标文字的二值化图像；从预设的彩色图片集中获取聚类图片集，根据所述聚类图片集聚类得到第一目标颜色、第二目标颜色和第三目标颜色；根据所述第一目标颜色、第二目标颜色和第三目标颜色对所述二值化图像进行着色以获取彩色图像；对所述彩色图像按照第一预设规则进行仿射变换；对经过仿射变换后的彩色图像按照第二预设规则进行透视变换；为经过透视变换后的彩色图像加入噪声以得到所述目标文字的目标图像。2.根据权利要求1所述的方法，其特征在于，所述基于矢量字体和目标文字获取所述目标文字的二值化图像包括：基于矢量字体和目标文字获取包括所述目标文字的图像；以黑色为背景色，以白色为前景色渲染所述图像以得到所述目标文字的二值化图像。3.根据权利要求1所述的方法，其特征在于，所述聚类图片集包括一张或多张用于进行聚类的图片。4.根据权利要求3所述的方法，其特征在于，所述根据所述聚类图片集聚类得到第一目标颜色、第二目标颜色和第三目标颜色包括：根据预设的聚类方法对所述聚类图片集中的图片进行聚类以得到聚类结果；在所述聚类结果中选取第一目标颜色、第二目标颜色和第三目标颜色。5.根据权利要求4所述的方法，其特征在于，所述根据预设的聚类方法对所述聚类图片集中的图片进行聚类以得到聚类结果包括：在所述聚类图片集中选取用于聚类的图片；在所述图片中确定目标聚类个数k；在所述图片中选取k个颜色作为初始聚类中心；将所述图片中的每个像素分配至最近的初始聚类中心，形成k个簇：获取所述像素的颜色与初始聚类中心的欧几里得距离；获取所述欧几里得距离的最小值；将所述像素划分至所述最小值对应的初始聚类中心；计算k个簇中每个簇的聚类中心直至所述k个簇中任意一个簇中的所有像素的颜色到该任意一个簇的聚类中心的距离平方和达到最小值。6.根据权利要求5所述的方法，其特征在于，所述在所述图片中选取k个颜色作为初始聚类中心包括：利用所述图片中的像素的颜色形成k个集群的层次聚类；将层次聚类的k个集群的质心作为初始聚类中心。7.根据权利要求1所述的方法，其特征在于，根据所述第一目标颜色、第二目标颜色和第三目标颜色对所述二值化图像进行着色以获取彩色图像包括：根据所述第一目标颜色设置所述二值化图像中的文字颜色；根据所述第二目标颜色设置所述二值化图像中的背景色；根据所述第三目标颜色设置所述二值化图像中的文字边缘颜色。8.根据权利要求1所述的方法，其特征在于，所述对所述彩色图像按照第一预设规则进行仿射变换包括：设置旋转角度的变换范围和倾斜角度的变换范围；按照预设选取规则选取符合所述旋转角度的变换范围的旋转角度和符合所述倾斜角度的变换范围的倾斜角度；根据所述旋转角度和所述倾斜角度获取仿射变换矩阵；根据所述仿射变换矩阵对所述彩色图像进行仿射变换。9.根据权利要求1所述的方法，其特征在于，所述为经过透视变换后的彩色图像加入噪声以得到所述目标文字的目标图像包括：对经过透视变换后的彩色图像按照第三预设规则加入噪声；根据加入噪声后的图像与加入噪声前的图像...

【专利技术属性】
技术研发人员：李辉，
申请(专利权)人：腾讯科技上海有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人