一种联合形状变换和纹理转换的古文字生成方法技术

技术编号:33499103 阅读:11 留言:0更新日期:2022-05-19 01:09
本发明专利技术公开了一种联合形状变换和纹理转换的古文字生成方法,包括:构建形状变换生成对抗网络A,包括生成器A1和判别器A2;构建纹理转换生成对抗网络B,包括生成器B1、判别器B2、生成器B3和判别器B4,纹理转换生成对抗网络B为循环生成对抗网络;将形状变换生成对抗网络A和纹理转换生成对抗网络B进行连接,获得摄影古文字生成网络模型;联合训练摄影古文字生成网络模型中的形状变换生成对抗网络A和纹理转换生成对抗网络B;使用训练好的生成器A1和生成器B1,将生成器A1的输出端与生成器B1输入端相连,获得摄影古文字图像生成器;采用所述的摄影古文字图像生成器进行古文字生成。摄影古文字图像生成器进行古文字生成。摄影古文字图像生成器进行古文字生成。

【技术实现步骤摘要】
一种联合形状变换和纹理转换的古文字生成方法


[0001]本专利技术属于图像处理与人工智能
,特别是涉及一种联合形状变换和纹理转换的古文字生成方法。

技术介绍

[0002]基于深度学习的算法往往需要依赖海量的训练数据来提升算法性能,其中,监督学习算法对数据标注有着极大的依赖性,因此,以低人工成本的方式获取标注数据引起人们的重视,常见的方法有数据增广、数据生成等。然而,对于前景形状多样、背景纹理丰富的古文字图像来说,由于数据增广一般依赖于人工设计的先验概率分布,能带来的数据多样性十分有限。相反,数据生成通过直接拟合数据的分布,有利于挖掘更加多样的数据。
[0003]目前最常用的数据生成技术是生成对抗网络,其中,基于生成对抗网络的形状变换方法和纹理转换方法在文字生成领域中分别都具有较高的研究热度。基于生成对抗网络的形状变换方法通常将空间变换网络、空洞卷积、可变形卷积等方法和对抗学习结合起来,实现了文字的形状变换,其中,空洞卷积和可变形卷积在海量标注训练数据的支撑下可以实现较好的形变结果,而空间变换网络更加适用于无监督的学习,对训练数据的需求相对较低。另一方面,一些方法通过条件生成对抗网络实现有监督的纹理转换,还有一些方法通过循环生成对抗网络框架来实现对纹理样式的进行无监督转换,其中无监督纹理转换几乎不需要标注数据,这对于数据量较小的古文字图像十分友好。
[0004]现有的文字生成技术主要是将上述的形状变换方法和纹理转换生成对抗网络分别进行独立训练,然后进行堆叠连接,用于生成形状和纹理层面上都较为逼真的样本,但是这种连接方式可能导致训练时梯度消失以及生成图像形状和纹理特征融合后不一致的问题。
[0005]现有技术的形状变换技术是一种随机字形增广方式,需要根据经验从人工设计的先验分布中对形变参数进行随机采样,以此产生多样性。但是,人工设计的分布不一定能拟合真实的古文字形状的分布,且分布的计算和选取复杂,这种做法既耗费大量的人工成本,而且分布拟合的误差会导致数据生成质量较低。且如果将形状变换模型和纹理转换模型进行简单的堆叠连接,既容易产生梯度消失的问题,又无法对形状变换模型和纹理转换模型进行联合调优,容易导致形状变换后的字符前景和纹理丰富的背景无法实现较好的融合,降低古文字生成的质量。

技术实现思路

[0006]有鉴于此,有必要针对上述技术问题,提供一种联合形状变换和纹理转换的古文字生成方法,所述方法采用一种结合仿射变换和薄板样条(thin plate spline, TPS)变换的形状变换生成对抗网络,该网络能从数据中自主学习目标形状概率分布,还能产生更加精细化的形状变换,同时所述方法采用一种基于信息交互的训练方式来联合优化多个生成对抗网络,使它们能够相互促进调优,提高生成样本的质量。
[0007]本专利技术公开了一种联合形状变换和纹理转换的古文字生成方法,包括以下步骤:步骤1,构建形状变换生成对抗网络A,包括生成器A1和判别器A2;首先,以临摹古文字图像作为生成器A1的输入,经过空间变换之后产生形变的字符图像,将生成器A1的输出端与判别器A2的输入端连接,同时,将目标字符图像输入到判别器A2的另一个输入端,判别器A2输出对形变的字符图像和目标字符图像的判别结果;步骤2,构建纹理转换生成对抗网络B,包括生成器B1、判别器B2、生成器B3和判别器B4,纹理转换生成对抗网络B为循环生成对抗网络;首先,将临摹古文字图像输入到生成器B1,生成器B1的输出端与判别器B2的输入端相连,接着,把摄影古文字图像输入到判别器B2中,同时,将摄影古文字图像输入到生成器B3,生成器B3的输出端与判别器B4的输入端相连,接着把临摹古文字图像输入到判别器B4中,分别从判别器B2和判别器B4获得摄影古文字图像纹理和临摹古文字图像纹理的判别结果;步骤3,将形状变换生成对抗网络A和纹理转换生成对抗网络B进行连接,获得摄影古文字生成网络模型;形状变换生成对抗网络A中的生成器A1的输出与纹理转换生成对抗网络B中的生成器B1的输入端相连接,将纹理转换生成对抗网络B中的生成器B3的输出端与形状变换生成对抗网络A中的判别器A2的输入端相连接,即此时生成器B3的输出作为形状变换生成对抗网络A的目标字符图像,生成器A1的输出作为形变的字符图像,输入到生成器B1中;步骤4,联合训练摄影古文字生成网络模型中的形状变换生成对抗网络A和纹理转换生成对抗网络B;步骤5,使用训练好的生成器A1和生成器B1,将生成器A1的输出端与生成器B1输入端相连,获得摄影古文字图像生成器;步骤6,采用所述的摄影古文字图像生成器进行古文字生成。
[0008]具体地,所述的生成器A1为一个空间变换网络,包括编码器、预测器、采样器、噪声重建网络和图像重建网络;所述的编码器由多个卷积模块构成,每一个卷积模块包括一个二维卷积层、一个非线性激活层和一个汇聚层顺序连接;所述的预测器由多个全连接模块和最后一个全连接层构成,每一个全连接模块包括一个全连接层和一个非线性激活层,最后一个全连接层的输出通道数量设置为所需预测的形变参数的个数;所述的采样器通过在采样网格上应用矩阵乘法将形变的字符图像像素区域映射到临摹古文字图像像素区域;所述的图像重建网络由多个全连接模块、一个全连接层和多个转置卷积模块顺序连接,每一个转置卷积模块包含依次连接的一个转置卷积层和一个非线性激活层;所述的噪声重建网络由多层全连接模块和一个全连接层顺序连接;所述的判别器A2基于patchGAN的结构,由依次连接的五个卷积模块组成,前四个卷积模块中每个卷积模块包括一个二维卷积层、一个实例归一化层、一个leakyReLU激活层,最后一个卷积模块包括一个padding层和一个二维卷积层;首先,临摹古文字图像作为编码器的输入,编码器从临摹古文字图像中提取形状特征,输出一个形状特征向量,然后,从标准正态分布中随机选取一个噪声隐向量,将
形状特征向量和噪声隐向量进行融合,将融合后的隐向量输入到预测器中,预测器负责映射出TPS变换参数和仿射变换参数,TPS变换参数为TPS变换采样网格匹配点的坐标值,将仿射变换参数转化为仿射变换采样网格,接着,将TPS变换采样网格和仿射变换采样网格以及临摹古文字图像输入到采样器中,输出形变的字符图像,同时,将预测器输出端与图像重建网络和噪声重建网络的输入端连接,分别重建出输入的临摹古文字图像和噪声隐向量,接着,将生成器输出的形变的字符图像和目标字符图像分别输入到判别器,判别器输出对形变的字符图像和目标字符图像的判别结果。
[0009]可选地,编码器中所述的每一个卷积模块还包括一个批归一化层,位于二维卷积层和非线性激活层中间;编码器中所述的非线性激活层的非线性激活函数选择ReLU函数,所述的汇聚层的汇聚运算选择最大化汇聚。
[0010]可选地,预测器中所述的每一个全连接模块还包括一个批归一化层,位于全连接层和非线性激活层中间;预测器中所述的非线性激活层的非线性激活函数选择ReLU函数,所述的汇聚层的汇聚运算选择最大化汇聚。
[0011]优选地,预测器中所述的最后一个全连接层的输出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种联合形状变换和纹理转换的古文字生成方法,其特征在于,包括以下步骤:步骤1,构建形状变换生成对抗网络A,包括生成器A1和判别器A2;首先,以临摹古文字图像作为生成器A1的输入,经过空间变换之后产生形变的字符图像,将生成器A1的输出端与判别器A2的输入端连接,同时,将目标字符图像输入到判别器A2的另一个输入端,判别器A2输出对形变的字符图像和目标字符图像的判别结果;步骤2,构建纹理转换生成对抗网络B,包括生成器B1、判别器B2、生成器B3和判别器B4,纹理转换生成对抗网络B为循环生成对抗网络;首先,将临摹古文字图像输入到生成器B1,生成器B1的输出端与判别器B2的输入端相连,接着,把摄影古文字图像输入到判别器B2中,同时,将摄影古文字图像输入到生成器B3,生成器B3的输出端与判别器B4的输入端相连,接着把临摹古文字图像输入到判别器B4中,分别从判别器B2和判别器B4获得摄影古文字图像纹理和临摹古文字图像纹理的判别结果;步骤3,将形状变换生成对抗网络A和纹理转换生成对抗网络B进行连接,获得摄影古文字生成网络模型;形状变换生成对抗网络A中的生成器A1的输出与纹理转换生成对抗网络B中的生成器B1的输入端相连接,将纹理转换生成对抗网络B中的生成器B3的输出端与形状变换生成对抗网络A中的判别器A2的输入端相连接,即此时生成器B3的输出作为形状变换生成对抗网络A的目标字符图像,生成器A1的输出作为形变的字符图像,输入到生成器B1中;步骤4,联合训练摄影古文字生成网络模型中的形状变换生成对抗网络A和纹理转换生成对抗网络B;步骤5,使用训练好的生成器A1和生成器B1,将生成器A1的输出端与生成器B1输入端相连,获得摄影古文字图像生成器;步骤6,采用所述的摄影古文字图像生成器进行古文字生成。2.根据权利要求1所述的一种联合形状变换和纹理转换的古文字生成方法,其特征在于,所述的生成器A1为一个空间变换网络,包括编码器、预测器、采样器、噪声重建网络和图像重建网络;所述的编码器由多个卷积模块构成,每一个卷积模块包括一个二维卷积层、一个非线性激活层和一个汇聚层顺序连接;所述的预测器由多个全连接模块和最后一个全连接层构成,每一个全连接模块包括一个全连接层和一个非线性激活层,最后一个全连接层的输出通道数量设置为所需预测的形变参数的个数;所述的采样器通过在采样网格上应用矩阵乘法将形变的字符图像像素区域映射到临摹古文字图像像素区域;所述的图像重建网络由多个全连接模块、一个全连接层和多个转置卷积模块顺序连接,每一个转置卷积模块包含依次连接的一个转置卷积层和一个非线性激活层;所述的噪声重建网络由多层全连接模块和一个全连接层顺序连接;所述的判别器A2基于patchGAN的结构,由依次连接的五个卷积模块组成,前四个卷积模块中每个卷积模块包括一个二维卷积层、一个实例归一化层、一个leakyReLU激活层,最后一个卷积模块包括一个padding层和一个二维卷积层;首先,临摹古文字图像作为编码器的输入,编码器从临摹古文字图像中提取形状特
征,输出一个形状特征向量,然后,从标准正态分布中随机选取一个噪声隐向量,将形状特征向量和噪声隐向量进行融合,将融合后的隐向量输入到预测器中,预测器负责映射出TPS变换参数和仿射变换参数,TPS变换参数为TPS变换采样网格匹配点的坐标值,将仿射变换参数转化为仿射变换采样网格,接着,将TPS变换采样网格和仿射变换采样网格以及临摹古文字图像输入到采样器中,输出形变的字符图像,同时,将预测器输出端与图像重建网络和噪声重建网络的输入端连接,分别重建出输入的临摹古文字图像和噪声隐向量,接着,将生成器A1输出的形变的字符图像和目标字符图像分别输入到判别器A2,判别器A2输出对形变的字符图像和目标字符图像的判别结果。3.根据权利要求2所述的一种联合形状变换和纹理转换的古文字生成方法,其特征在于,生成器B1依次连接的三个卷积模块、四个残差卷积模块,三个转置卷积模块和一个输出卷积模块,每个卷积模块的结构包含依次连接的一个二维卷积层、一个实例归一化层和一个非线性ReLU激活层,每个残差卷积模块包含依次连接的两个卷积模块和一个加法器,加法器将残差模块的输入端和输出端进行加法运算,每个转置卷积模块包含依次连接的一个转置卷积层、一个实例归一化层和一个非线性ReLU激活层,输出卷积模块包含依次连接的一个卷积层和Tanh激活函数;生成器B3和生成器B1的结构相同;所述的判别器B2和判别器B4的结构与判别器A2相同;在生成器A1和生成器B1之间,以及生成器B3和判别器A2之间切断了梯度...

【专利技术属性】
技术研发人员:黄双萍黄鸿翔杨代辉
申请(专利权)人:人工智能与数字经济广东省实验室广州
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1