基于牵连仿射变换的文本生成图像方法技术

技术编号：38214685 阅读：17 留言：0更新日期：2023-07-25 11:23

本发明专利技术公开了一种基于牵连仿射变换的文本生成图像方法，包括以下步骤：(1)通过预训练的嵌入式文本编码器E获得嵌入式文本编码s；(2)生成服从标准正态分布的随机噪声z，将其输入生成器G与嵌入式文本编码s进行深度融合获得生成图像f；(3)将生成图像f和嵌入式文本编码s对应的真实图像r分别输入到判别器D中进行打分得到Sf和Sr；构造判别器D的损失函数lossD，利用梯度下降法优化判别器D；(4)利用梯度下降法优化生成器G；(5)重复步骤(1)至(4)，最终训练得到生成高质量图像的生成器。本发明专利技术可以获得生成高质量图像的文本生成图像生成器，可以应用于人机生成式交互、平面设计等二维图像相关的生成式任务。维图像相关的生成式任务。维图像相关的生成式任务。

全部详细技术资料下载

【技术实现步骤摘要】
基于牵连仿射变换的文本生成图像方法

[0001]本专利技术属于自然语言处理和计算机视觉交叉领域，更确切地说，是一种跨模态学习的典型任务。

技术介绍

[0002]文本生成图像是一个由少量信息变为大量信息的过程。一句文本的信息量与一张图像的信息量有着天壤之别，如果能研究出这种跨模态之间的关系，将有利于其他类似的生成式研究领域的发展。文本生成图像在AI绘画、人机生成式交互，平面设计等领域有所应用。但是，由于其本身任务具体很大挑战，生成的图像难以达到人类视觉的认可，和真实的图像有明显差距，而文本和图像的融合方法是生成图像质量的关键。因此，建立融合模块之间的关系具备重要的理论意义和实际应用价值。

技术实现思路

[0003]本专利技术所要解决的技术问题在于通过使用一种正向牵引方法将原本独立的各个融合模块建立一定的关联，基于这种关联，使得在基于仿射变换融合的方式下，生成器能够更好的生成高质量图像。
[0004]本专利技术的文本生成图像方法，包括以下几个步骤：
[0005](1)从预训练的嵌入式文本编码器E获取嵌入式文本编码s；
[0006]本步骤为本专利技术的非核心部分，其嵌入式文本编码器使用AttnGAN中的DAMSM Encoder(AttnGAN:Fine
‑
Grained Text to Image Generation with Attentional Generative Adversarial Networks)，对于CUB
‑
200
>‑
2011数据集和COCO数据集有预训练好的模型参数可以使用，使用其他数据集则需要重新训练该编码器E。
[0007](2)将随机生成的服从标准正态分布的噪声z输入生成器网络G中，并逐层与嵌入式文本编码s进行仿射变换融合获得生成图像f；
[0008](3)使用结合卷积块注意力模块的判别器网络D对生成图像f和真实图像r进行打分，得到S
f
和S
r
，这两个图像都对应着当前输入生成器网络G的嵌入式文本编码s，其中真实图像r为数据集里的图像，生成图像f为(2)中生成器网络G根据嵌入式文本编码s和随机噪声z生成的输出图像，使用这两个分数构造判别器网络D的损失函数loss
D
，用梯度下降法更新判断器D的网络参数得到D＇；
[0009](4)使用D＇重新给生成图像进行打分，得到S
f
＇，由S
f
＇构成生成器网络G的损失函数loss
G
，用梯度下降法更新生成器G的网络参数；
[0010](5)重复(1)至(4)步骤，最终得到生成器网络G，用于文本生成图像；
[0011]所述的步骤(1)具体计算过程如下：
[0012]使用文本编码器E获取嵌入式文本编码s。该文本编码器E基于深度注意力跨模态相似模块(AttnGAN:Fine
‑
Grained Text to Image Generation with Attentional Generative Adversarial Networks)，将图像信息嵌入文本编码中，更有利于图像的生成
且具备局部单词级别的文本信息编码，有利于细粒度图像的生成。对于本方法使用的数据集，均为1个图像对应n个文本描述的格式，所述步骤(1)中，随机抽取当前图像中n个文本描述中的1个文本描述与该图像配对，先将其表达为one
‑
hot编码，然后将one
‑
hot编码输入embedding层进行编码，然后将这个编码输入到双向LSTM网络中，最后得到单词级别的嵌入式编码w和句子级别的嵌入式编码s，本方法只是用其中句子级别的嵌入式编码s。
[0013]所述的步骤(2)具体计算过程如下：
[0014]随机噪声z服从标准正态分布，其维度为100
×
1，通过全连接层fc初始化图像编码h0，其维度为(C
×
W
×
H)256
×4×
4，其中C为图像编码的通道数，W和H分别为图像编码的宽度和高度，全连接层fc层由一个线性层组成，其输入维度为100
×
1，输出维度为256
×4×
4。随后经过6个深度融合模块，其输入的隐藏图像编码的维度(C
iin
×
W
iin
×
H
iin
)分别为256
×4×
4、256
×8×
8、256
×
16
×
16、256
×
32
×
32、128
×
64
×
64、64
×
128
×
128，其输出的隐藏图像编码的维度(C
iout
×
W
iout
×
H
iout
)分别为256
×8×
8、256
×
16
×
16、256
×
32
×
32、128
×
64
×
64、64
×
128
×
128、32
×
256
×
256。在进入每个深度融合模块前，先进行上采样操作，使隐藏图像编码的size(W
×
H)放大4倍，即W和H分别放大2倍，即4
×
4变为8
×
8，8
×
8变为16
×
16，16
×
16变为32
×
32，32
×
32变为64
×
64，64
×
64变为128
×
128，128
×
128变为256
×
256，且在一个深度融合模块中进行融合时，隐藏图像编码h的size不变。
[0015](2.1)将初始化图像编码h0输入第1个深度融合模块与嵌入式文本编码s进行融合，随后将第i个深度融合模块(i＝1，2，3，4，5，6)输出的隐藏图像编码进行上采样，然后将其输入到第i+1个深度融合模块中再次与嵌入式文本编码s进行融合，其中隐藏图像编码的维度为C
iin
×
W
iin
×
H
iin
，具体数值在上文中已做说明。第i个深度融合模块的详细过程见(2.2)；
[0016](2.2)每个深度融合模块均为一个残差块，对于第i个深度融合模块，当前输入的隐藏图像编码h
i
进行上采样后，输入到第i个深度融合模块的第1个融合模块中与嵌入式文本编码s进行融合，将其输出结果输入到卷积层CNN_1中进行卷积本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于牵连仿射变换的文本生成图像方法，包括以下步骤：(1)从预训练的嵌入式文本编码器E获取嵌入式文本编码s；(2)将随机生成的服从标准正态分布的噪声z输入生成器网络G中，并逐层与嵌入式文本编码s进行仿射变换融合获得生成图像f；(3)使用结合卷积块注意力模块的判别器网络D对生成图像f和真实图像r进行打分，得到S
f
和S
r
，这两个图像都对应着当前输入生成器网络G的嵌入式文本编码s，其中真实图像r为数据集里的图像，生成图像f为步骤(2)中生成器网络G根据嵌入式文本编码s和随机噪声z生成的输出图像，使用S
f
和S
r
这两个分数构造判别器网络D的损失函数loss
D
，用梯度下降法更新判断器D的网络参数得到D＇；(4)使用D＇重新给生成图像进行打分，得到S
f
＇，由S
f
＇构成生成器网络G的损失函数loss
G
，用梯度下降法更新生成器G的网络参数；(5)重复步骤(1)至(4)，最终得到生成器网络G，用于文本生成图像。2.如权利要求1所述的基于牵连仿射变换的文本生成图像方法，其特征在于：本方法使用的数据集，均为1个图像对应n个文本描述的格式；所述步骤(1)中，随机抽取当前图像中n个文本描述中的1个文本描述与该图像配对，先将其表达为one
‑
hot编码，然后将one
‑
hot编码输入embedding层进行编码，然后将这个编码输入到双向LSTM网络中，最后得到单词级别的嵌入式编码w和句子级别的嵌入式编码s。3.如权利要求1所述的基于牵连仿射变换的文本生成图像方法，其特征在于：所述步骤(2)具体计算过程如下：随机噪声z服从标准正态分布，其维度为100
×
1，通过全连接层fc初始化图像编码h0，其维度为(C
×
W
×
H)256
×4×
4，其中C为图像编码的通道数，W和H分别为图像编码的宽度和高度，全连接层fc层由一个线性层组成，其输入维度为100
×
1，输出维度为256
×4×
4；随后经过6个深度融合模块，其输入的隐藏图像编码的维度(C
iin
×
W
iin
×
H
iin
)分别为256
×4×
4、256
×8×
8、256
×
16
×
16、256
×
32
×
32、128
×
64
×
64、64
×
128
×
128，其输出的隐藏图像编码的维度(C
iout
×
W
iout
×
H
iout
)分别为256
×8×
8、256
×
16
×
16、256
×
32
×
32、128
×
64
×
64、64
×
128
×
128、32
×
256
×
256；在进入每个深度融合模块前，先进行上采样操作，使隐藏图像编码的size(W
×
H)放大4倍，即W和H分别放大2倍，且在一个深度融合模块中进行融合时，隐藏图像编码h的size不变；(2.1)将初始化图像编码h0输入第1个深度融合模块与嵌入式文本编码s进行融合，随后将第i个深度融合模块(i＝1，2，3，4，5，6)输出的隐藏图像编码进行上采样，然后将其输入到第i+1个深度融合模块中再次与嵌入式文本编码s进行融合，其中隐藏图像编码的维度为C
iin
×
W
iin
×
H
iin
；(2.2)每个深度融合模块均为一个残差块，对于第i个深度融合模块，当前输入的隐藏图像编码h
i
进行上采样后，输入到第i个深度融合模块的第1个融合模块中与嵌入式文本编码s进行融合，将其输出结果输入到卷积层CNN_1中进行卷积，其卷积核大小为3
×
3，步长为1，填充为1，卷积层CNN_1输入输出的维度分别为该融合模块所处的第i个深度融合模块的输入输出通道数值C
iin
和C
iout
，然后将卷积层CNN_1输出的图像编码输入到第i个深度融合模块的第2个融合模块中与嵌入式文本编码s进行融合，将其输出结果输入到卷积层CNN_2中进行卷积，其卷积核大小为3
×
3，步长为1，填充为1，最后，将CNN_2输出的最终图像编码
与输入第i个深度融合模块的h
i
上采样后的编码进行相加，形成残差块，将其相加后的编码输入到第i+1个深度融合模块；(2.3)对于第i个深度融合模块的第1个融合模块，先将输入的图像编码x输入到第1个融合模块中的第1个仿射模块与嵌入式文本编码s进行仿射融合，将其融合结果x
′
输入到非线性激活层，非线性激活层使用LeakyReLU激活函数，参数α设置为0.2，将非线性变换层输出的结果输入到第1个融合模块的第2个仿射模块与嵌入式文本编码s进行仿射融合，同样地，将其融合结果输入到非线性激活层，同样使用LeakyReLU激活函数作为非线性变换的激活函数，参数α设置为0.2，最后将其输入到第i个深度融合模块的第2个融合模块进行与第1个融合模块相同的操作；(2.4)对于仿射模块，由2个多层感知器(ω
‑
MLP、β
‑
MLP)组成，这2个多层感知器的结构一样，均由2个全连接层和1个ReLU非线性激活层组成；其中ω
‑
MLP的线性层fc_1的输入输出维度分别为(c
ω
′
+256)
×
1和c
ω
×
1，其中c
ω
′
为上一个仿射模块的ω
‑
MLP学习得出的仿射参数ω
′
的维度，256为嵌入式文本编码s的维度，c
ω
为当前仿射模块的ω
‑
MLP学习得出的仿射参数ω的维度，ω
‑
MLP的线性层fc_2的输入输出维度分别为c
ω
×
1和c
ω
×
1，c
ω
为当前仿射模块的ω
‑
MLP学习得出的仿射参数ω的维度；将嵌入式文本编码s与ω
′
、β
′
分别进行拼接，将拼接后的特征编码分别带入当前的仿射模块中的ω
‑
MLP和β
‑
MLP进行学习，分别依次进入ω
‑
MLP和β
‑
MLP的fc_1、ReLU、fc_2，得出当前仿射模块的仿射参数ω、β，最后根据仿射变换的计算公式ω
·
x+β计算得出仿射融合后的图像编码x
′
，即输入仿射模块的图像编码x与仿射模块中的2个多层感知器(ω
‑
MLP、β
‑
MLP)学习得出的仿射参数ω和β进行组合运算；对于第i个深度融合模块的第1个融合模块中的2个仿射模块，仿射模块a的c
ω
、c
β
相等且值为C
iin
，c
ω
′
、c
β
′
相等...

【专利技术属性】
技术研发人员：吴海峰，兰强，程玉胜，程一飞，王一宾，
申请(专利权)人：吴海峰，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人