一种迁移场景风格的字符图像生成方法技术

技术编号：27939190 阅读：34 留言：0更新日期：2021-04-02 14:20

本发明专利技术提出一种迁移场景风格的字符图像生成方法，可用于生成含给定场景风格的汉字字符图像，所述方法包括以下步骤：步骤S1：采集场景字符图像，制作原始字符图像，构建训练数据集；步骤S2：构建用于场景字符图像生成的生成对抗网络，并训练网络；步骤S3：使用源场景字符图像、源原始字符图像和目标原始字符图像，生成场景字符图像；本发明专利技术可提供一种通过给定含有场景风格和字体风格的场景字符图像，并通过字体文件制作简单的黑底白字的字符图像，生成指定字符含有给定场景风格的场景字符图像。

全部详细技术资料下载

【技术实现步骤摘要】
一种迁移场景风格的字符图像生成方法
本专利技术涉及模式识别与计算机视觉
，尤其是一种迁移场景风格的字符图像生成方法。
技术介绍
语言是人类传播信息的主要方式之一，文字是书面的语言，也是人类通过视觉传递信息最广泛的方式之一。随着人工智能、互联网等技术的迅速发展，使用计算机自动识别图像中的文本具有重要意义。对于中文文本识别任务，由于汉字类别多，使用深度学习方法训练汉字识别模型通常需要海量的数据支持，采集数据的成本极高。而且现实场景下，大多数类别的汉字并不常见，这种不均匀的类别分布会导致识别模型的性能下降，而在大多数场景下收集生僻字是困难的。因此，使用计算机生成各种场景下的汉字具有很强的实用价值。
技术实现思路
本专利技术提出一种迁移场景风格的字符图像生成方法，可提供一种通过给定含有场景风格和字体风格的场景字符图像，并通过字体文件制作简单的黑底白字的字符图像，生成指定字符含有给定场景风格的场景字符图像。一种迁移场景风格的字符图像生成方法，可用于生成含给定场景风格的汉字字符图像，所述方法包括...

【技术保护点】
1.一种迁移场景风格的字符图像生成方法，可用于生成含给定场景风格的汉字字符图像，其特征在于：所述方法包括以下步骤：/n步骤S1：采集场景字符图像，制作原始字符图像，构建训练数据集；/n步骤S2：构建用于场景字符图像生成的生成对抗网络，并训练网络；/n步骤S3：使用源场景字符图像、源原始字符图像和目标原始字符图像，生成场景字符图像。/n

【技术特征摘要】
1.一种迁移场景风格的字符图像生成方法，可用于生成含给定场景风格的汉字字符图像，其特征在于：所述方法包括以下步骤：
步骤S1：采集场景字符图像，制作原始字符图像，构建训练数据集；
步骤S2：构建用于场景字符图像生成的生成对抗网络，并训练网络；
步骤S3：使用源场景字符图像、源原始字符图像和目标原始字符图像，生成场景字符图像。

2.根据权利要求1所述的一种迁移场景风格的字符图像生成方法，其特征在于：所述步骤S1具体为：
步骤S11：收集并整理场景字符图像nimgs对，仅包含字符的源场景字符图像imgsrc和目标场景字符图像imgtgt，成对的字符图像应具有相似的场景和字体，且对应不同的字符，尺寸为边长为s的正方形，其中s为人工设定的参数，于是第ia对字符图像imgsrc和imgtgt可以表示为imgsrcia和imgtgtia，则nimgs对场景字符图像可以表示为imgs＝{imgsrctgtia|ia＝0，1，...nimgs}，其中imgsrctgtia表示第ia对场景字符图像imgsrctgtia＝{imgsrcia，imgtgtia}；
步骤S12：选择一种字体作为原始字体，基于该字体可以生成黑底白字的字体图像，一副场景字符图像对应一个字符，对应字符生成的字体图像定义为原始字符图像，生成的原始字符图像尺寸为边长为s的正方形，字符位于图像中央，于是对imgsrc制作原始字符图像可以得到源原始字符图像charsrc，对imgtgt制作原始字符图像可以得到目标原始字符图像chartgt，第ia个imgsrcia制作原始字符图像得到charsrcia，第ia个chartgt制作原始字符图像得到chartgtia，对ia＝0，1，…nimgs执行完上述操作得到nimgs对原始字符图像chars＝{charsrctgtia|ia＝0，1，...nimgs}，其中charstctgtia表示第ia对原始字符图像charsrctgtia＝{charsrcia，chartgtia}；
步骤S13：组合imgs和chars得到训练数据集trains＝{trainia|ia＝0，1，...nimgs}，其中trainia表示第ia组训练数据，trainia＝{imgsrcia，imgtgtia，charsrcia，chartgtia}。

3.根据权利要求1所述的一种迁移场景风格的字符图像生成方法，其特征在于：所述用于场景字符图像生成的生成对抗网络，具体如下：
网络包含两个部分，一个生成器和一个判别器，生成器用于生成图像，判别器用于判定一张图像是否为满足某一条件的某种图像；
生成器的输入含有三个分支，三个分支分别通过独立的多层卷积网络提取源场景字符图像、源原始字符图像和目标原始字符图像的特征，然后将三个分支提取的特征在通道维度连接，合并的特征再通过多层卷积网络进一步融合特征，紧接着连接一个UNet结构的网络，这种结构的网络能将图像先下采样至一个较小的尺寸，再上...

【专利技术属性】
技术研发人员：柯逍，刘童安，
申请(专利权)人：福州大学，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人