一种结合皮尔逊重构的文本到图像生成方法技术

技术编号:22166994 阅读:30 留言:0更新日期:2019-09-21 10:36
本发明专利技术公开了一种结合皮尔逊重构的文本到图像生成方法,其特征在于,包括如下步骤:1)数据预处理;2)建立图像生成模型;3)条件融合;4)特征向量生成;5)判别器判别;6)多尺度联合损失;7)网络训练;8)图像生成。该方法能重构判别器的输出,获得与网络的输入线性相关的特征向量,同时限制判别器的判别能力,使得生成器训练时更容易收敛并提高生成样本的质量和多样性。

A Text-to-Image Generation Method Based on Pearson Reconstruction

【技术实现步骤摘要】
一种结合皮尔逊重构的文本到图像生成方法
本专利技术涉及图像生成领域,具体涉及一种结合皮尔逊重构的文本到图像生成方法。
技术介绍
文本到图像生成(Text-to-Imagegeneration)在图像生成领域中一直是一项具有挑战的研究任务,目的是为了学习一个从文本语义空间到彩色图像空间的映射,生成逼真图像的同时捕捉到文本的语义,即生成的图像应保留文本描述中的物体特征和语义细节。文本到图像生成在图像生成领域越来越活跃,一些应用方面也都有了广泛的需求,比如艺术生成,计算机辅助设计等。目前的文本到图像生成方法主要基于生成式对抗网络。最先由Reed等人通过一个基于条件生成对抗网络的框架来处理这项任务,方法将整个文本描述编码为一个全局的句子向量作为条件进行图像生成,并且提出了一种新的图像文本匹配对抗训练策略,成功生成了分辨率为64x64的可信赖样本;Zhang等人提出了堆叠式条件生成对抗网络(StackGAN),将生成网络分为两个阶段,先绘制出对象的大致轮廓和颜色,再通过多级残差网络修补生成样本的细节和缺陷,最后生成了分辨率为256x256的样本,极大提高了生成样本的质量。尽管以上方法生成样本的分辨率越来越高,但对抗学习中判别器训练速度普遍快于生成器,这会导致两者训练时难以达到纳什平衡,使得生成样本的质量和多样性难以提升。
技术实现思路
本专利技术的目的是针对现有技术的不足,而提供一种结合皮尔逊重构的文本到图像生成方法。该方法能重构判别器的输出,获得与网络的输入线性相关的特征向量,同时限制判别器的判别能力,使得生成器训练时更容易收敛并提高生成样本的质量和多样性。实现本专利技术目的的技术方案是:一种结合皮尔逊重构的文本到图像生成方法,与现有技术不同处在于,包括如下步骤:1)对原始图像中的目标物体进行标记,利用标记好的边界框对输入的原始图像进行裁剪,使得目标物体的边界框的对象-图像大小比大于0.75,并为每张图像提供十个文本描述,将文本描述编码为句嵌入向量再对裁剪图像进行缩放,得到多尺度的训练集xi;2)建立图像生成模型:图像生成模型为堆叠式的条件生成对抗网络,条件生成对抗网络由生成器和判别器组成,堆叠式条件生成对抗网络由多对不同尺度的生成器和判别器组成,生成器之间共享权值,判别器分别独立;3)条件融合:采用重参数技术将步骤1)中所述句嵌入向量转换为低维条件向量c,采用随机高斯向量z与条件向量c进行维度相加得到组合向量y,将组合向量y作为首个生成器G0的输入,其他生成器都需额外加入条件向量c;4)特征向量生成:将步骤3)得到的组合向量y输入生成器,得到不同尺度的生成图像si,并将不同尺度生成图像si输入对应尺度判别器Di中,在判别器Di中额外加入步骤3)得到的条件向量c得到不同尺度生成图像si的特征向量5)判别器判别:依据最大化皮尔逊相关系数方法将步骤4)生成的特征向量与步骤3)中得到的组合向量y进行皮尔逊重构,分离出特征向量的均值自由度,采用特征向量的均值进行判别;6)多尺度联合损失:将步骤4)得到的不同尺度生成图像si的特征向量分别与步骤3)得到的组合向量y分别进行皮尔逊重构,并将重构损失分别加入不同尺度判别损失和生成损失中;7)网络训练:将步骤4)得到的不同尺度生成图像si和步骤1)得到的多尺度训练集分别作为负样本和正样本对对应尺度的判别器进行训练,采用不同尺度生成图像经过判别器计算得到的误差梯度对生成器进行训练;8)图像生成:将随机高斯噪声向量z与步骤1)中所述句嵌入向量c输入到步骤2)中的图像生成模型即堆叠式的条件生成对抗网络中,得到不同尺度的生成图像。步骤5)中所述的皮尔逊重构为:依据公式(1)对特征向量与组合向量y进行皮尔逊重构:其中为均值,avg(·)用于计算平均值,皮尔逊相关系数用于度量两个变量的相关性即线性相关,其值介于-1与1之间,即y为随机高斯向量和条件向量的组合向量,组合向量维度与特征向量维度相等且为n,n=nz+nc,yj为组合向量y={y1,y2,...yj...,yn}第j个变量,为第i个尺度的生成样本si经过第i个判别器Di得到的特征向量,且为特征向量第j个变量,将该项作为重构项加入判别器损失中,解决了如何最大化皮尔逊相关系数的问题,分离判别器参数自由度,仅利用特征向量的均值进行判别,构建判别损失和生成损失。步骤6)中所述的不同尺度判别损失和生成损失为:由于判别只需要一个自由度就可以完成,所以利用特征向量的均值就可以进行判别,判别器目标进行如公式(2)所示的最大化优化:其中xi来自第i个尺度的真实图像分布si来自第i个尺度的模型分布y为组合向量,ρ为皮尔逊重构项,多个判别器并行训练,表示第i个判别器损失,前三项为无条件损失,后三项为条件损失,设置λ=0.5;依据公式(3)、公式(4)生成器目标进行最小化优化:其中LG为总生成器损失,网络阶数m设置为3,表示第i个生成器损失,由于皮尔逊重构项与生成器也有关联,因此生成损失中也加入了皮尔逊重构项。上述技术方案,有效地解决了堆叠式条件生成对抗网络的生成样本细节表述质量不高,多样性不足的问题。这种方法能重构判别器的输出,获得与网络的输入线性相关的特征向量,同时限制判别器的判别能力,使得生成器训练时更容易收敛并提高生成样本的质量和多样性。附图说明图1为实施例的方法流程示意图;图2为实施例中的模型结构示意图。具体实施方式下面结合附图和实施例对本专利技术的内容作进一步的阐述,但不是对本专利技术的的限定。实施例:参照图1,一种结合皮尔逊重构的文本到图像生成方法,包括如下步骤:1)数据预处理:对原始图像中的目标物体进行标记,利用标记好的边界框对输入的原始图像进行裁剪,使得目标物体的边界框的对象-图像大小比大于0.75,并为每张图像提供十个文本描述,将文本描述编码为句嵌入向量再对裁剪图像进行缩放,得到多尺度的训练集xi;2)建立图像生成模型:如图2所示,图像生成模型为堆叠式的条件生成对抗网络,条件生成对抗网络由生成器和判别器组成,堆叠式条件生成对抗网络由多对不同尺度的生成器和判别器组成,生成器之间共享权值,判别器分别独立;3)条件融合:采用重参数技术将步骤1)中所述句嵌入向量转换为低维条件向量c,采用随机高斯向量z与条件向量c进行维度相加得到组合向量y,将组合向量y作为首个生成器G0的输入,其他生成器都需额外加入条件向量c;4)特征向量生成:将步骤3)得到的组合向量y输入生成器,得到不同尺度的生成图像si,并将不同尺度生成图像si输入对应尺度判别器Di中,在判别器Di中额外加入步骤3)得到的条件向量c得到不同尺度生成图像si特征向量5)判别器判别:依据最大化皮尔逊相关系数方法将步骤4)生成的特征向量与步骤3)中得到的组合向量y进行皮尔逊重构,分离出特征向量的均值自由度,采用特征向量的均值进行判别;6)多尺度联合损失:将步骤4)得到的不同尺度生成图像si的特征向量分别与步骤3)得到的组合向量y分别进行皮尔逊重构,并将重构损失分别加入不同尺度判别损失和生成损失中;7)网络训练:将步骤4)得到的不同尺度生成图像si和步骤1)得到的多尺度训练集分别作为负样本和正样本对对应尺度的判别器进行训练,采用不同尺度生成图像经过判别器计算得到的误差梯度对生成器进行训练;8)图像生成:本文档来自技高网...

【技术保护点】
1.一种结合皮尔逊重构的文本到图像生成方法,其特征在于,包括如下步骤:1)数据预处理:对原始图像中的目标物体进行标记,利用标记好的边界框对输入的原始图像进行裁剪,使得目标物体的边界框的对象‑图像大小比大于0.75,并为每张图像提供十个文本描述,将文本描述编码为句嵌入向量

【技术特征摘要】
1.一种结合皮尔逊重构的文本到图像生成方法,其特征在于,包括如下步骤:1)数据预处理:对原始图像中的目标物体进行标记,利用标记好的边界框对输入的原始图像进行裁剪,使得目标物体的边界框的对象-图像大小比大于0.75,并为每张图像提供十个文本描述,将文本描述编码为句嵌入向量再对裁剪图像进行缩放,得到多尺度的训练集xi;2)建立图像生成模型:图像生成模型为堆叠式的条件生成对抗网络,条件生成对抗网络由生成器和判别器组成,堆叠式条件生成对抗网络由多对不同尺度的生成器和判别器组成,生成器之间共享权值,判别器分别独立;3)条件融合:采用重参数技术将步骤1)中所述句嵌入向量转换为低维条件向量c,采用随机高斯向量z与条件向量c进行维度相加得到组合向量y,将组合向量y作为首个生成器G0的输入,其他生成器都需额外加入条件向量c;4)特征向量生成:将步骤3)得到的组合向量y输入生成器,得到不同尺度的生成图像si,并将不同尺度生成图像si输入对应尺度判别器Di中,在判别器Di中额外加入步骤3)得到的条件向量c得到不同尺度生成图像si的特征向量5)判别器判别:依据最大化皮尔逊相关系数方法将步骤4)生成的特征向量与步骤3)中得到的组合向量y进行皮尔逊重构,分离出特征向量的均值自由度,采用特征向量的均值进行判别;6)多尺度联合损失:将步骤4)得到的不同尺度生成图像si的特征向量分别与步骤3)得到的组合向量y分别进行皮尔逊重构,并将重构损失分别加入不同尺度判别损失和生成损失中;7)网络训练:将步骤4)得到的不同尺度生成图像si和步骤...

【专利技术属性】
技术研发人员:莫建文徐凯亮欧阳宁林乐平袁华首照宇张彤陈利霞肖海林
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1