一种基于特征的文本到图像生成方法、装置及介质制造方法及图纸

技术编号:37146430 阅读:32 留言:0更新日期:2023-04-06 21:58
本发明专利技术公开了一种基于特征的文本到图像生成方法、装置及介质,其方法包括获取测试文本,进行编码处理生成文本特征;随机生成分布噪声并作为图像特征;将文本特征和图像特征输入训练好的图像生成模型,获取输出的生成图像;其中,图像生成模型的训练包括:获取由大量训练文本及对应的真实图像构成的数据集;基于生成对抗网络设计图像生成模块,图像生成模块包括生成器和判别器;从数据集中取出训练文本及其对应的真实图像;对取出的训练文本及其对应的真实图像分别进行编码处理生成文本特征和图像特征,并计算对抗性损失和相似性比较损失,根据对抗性损失和相似性比较损失优化生成器和判别器,并进行迭代训练;本发明专利技术能够提升图像生成的准确性。图像生成的准确性。图像生成的准确性。

【技术实现步骤摘要】
一种基于特征的文本到图像生成方法、装置及介质


[0001]本专利技术涉及一种基于特征的文本到图像生成方法、装置及介质,属于图像合成


技术介绍

[0002]文本到图像合成(T2I),以文本描述为输入,输出与描述对应的具有高度语义相关性的图像,将自然语言与计算机视觉连接起来,从而促进人工智能在“看”和“理解”上的应用。从文本描述中自动生成图像因其在许多应用中的重要性而吸引了许多努力的兴趣。根据外观描述生成肖像,使用给定的样式标签设计所需的图像,在零样本学习中基于类描述合成看不见的特征。根据是否使用生成对抗网络(GAN)作为主要框架,T2I方法可以大致分为两类:基于非GAN的模型和基于GAN的模型。
[0003]现有技术虽然基于GAN的工作取得了显著成果,但多阶段或循环的训练策略使得在现实世界中应用T2I变得很麻烦。古语有云,“一望千言”。这些模型将带有来自标准正态分布的随机样本的文本作为输入,与真实图像相比,文本和随机噪声都无法覆盖足够的信息。因此,使用来自标准正态分布的样本进行生成并不是最佳选择。此外,这些模型考虑了生成的图像和文本之间的语义匹配,但忽略了与真实图像的一致性。

技术实现思路

[0004]本专利技术的目的在于克服现有技术中的不足,提供一种基于特征的文本到图像生成方法、装置及介质,考虑真实图像的一致性,保证生成的图像服从真实的图像分布。
[0005]为达到上述目的,本专利技术是采用下述技术方案实现的:
[0006]第一方面,本专利技术提供了一种基于特征的文本到图像生成方法,包括:
[0007]获取测试文本,对测试文本进行编码处理生成文本特征;
[0008]随机生成分布噪声,将随机生成的分布噪声作为图像特征;
[0009]将文本特征和图像特征输入训练好的图像生成模型,获取输出的生成图像;
[0010]其中,所述图像生成模型的训练包括:
[0011]获取由大量训练文本及对应的真实图像构成的数据集;
[0012]基于生成对抗网络设计图像生成模块,所述图像生成模块包括生成器和判别器;
[0013]从数据集中取出训练文本及其对应的真实图像;
[0014]对取出的训练文本及其对应的真实图像分别进行编码处理生成文本特征和图像特征;
[0015]将文本特征和图像特征输入生成器,获取输出的生成图像;
[0016]将文本特征、生成图像和真实图像输入判别器,并根据判别器的输出计算对抗性损失;
[0017]将文本特征、生成图像和真实图像输入相似性比较器,计算相似性比较损失;
[0018]根据对抗性损失和相似性比较损失优化生成器和判别器;
[0019]返回步骤:从数据集中取出训练文本及其对应的真实图像,对图像生成模块进行迭代训练。
[0020]可选的,所述生成文本特征包括:
[0021]采用由预训练的CLIP模型作为文本编码器,所述文本编码器将文本编码为文本特征,所述文本特征包括句子级特征和单词级特征,其表达式为:
[0022](f
s
,f
w
)=E
T
(t)
[0023]式中,E
T
为文本编码器,t为文本,f
s
∈R
512
为句子级特征,R
512
为512大小的实数向量,f
w
∈R
512
×
seq
_
len
为单词级特征,R
512
×
seq
_
len
为512
×
seq_len大小的实数矩阵,seq_len为序列长度。
[0024]可选的,所述生成图像特征包括:
[0025]采用由预训练的ViT

B/32模型作为图像编码器,所述图像编码器将真实图像编码为初始的图像特征,其表达式为:
[0026]f
x
=E
I
(x)
[0027]式中,E
I
为图像编码器,x为真实图像,f
x
为初始的图像特征;
[0028]采用预设的分布编码器将图像特征映射成一个连续流形,用独立的高斯分布表示:N(μ(f
x
),σ(f
x
));对所述分布编码器添加正则化以确保连续流形的平滑度;
[0029]基于初始的图像特征根据连续流形生成最终的图像特征,其表达式为:
[0030]z=E
z
(f
x
)=μ(f
x
)+∈
×
σ(f
x
)
[0031]式中,E
z
为分布编码器,f
x
为初始的图像特征,z为最终的图像特征,∈~N(0,I)。
[0032]可选的,所述对抗性损失L
adv
为:
[0033][0034]式中,为数学期望,(t,x)为训练文本及对应的真实图像,P
data
为数据集,D(x,f
s
)为真实图像x和对应训练文本的句子级特征f
s
输入判别器D的输出结果,为生成图像和对应训练文本的句子级特征f
s
输入判别器D的输出结果。
[0035]可选的,所述相似性比较损失L
sim
为:
[0036][0037][0038][0039]式中,为数据集中第i个训练文本对应的真实图像和生成图像输入相似性比较器C的输出结果,为数据集中第i个训练文本的句子级特征和生成图像输入相似性比较器C的输出结果,n为数据集中训练文本的数量。
[0040]可选的,所述根据对抗性损失和相似性比较损失优化生成器和判别器包括:
[0041]生成器和判别器通过交替最大化和最小化的对抗性损失进行优化;
[0042]在生成器的对抗性损失优化后,通过相似性比较损失再次优化。
[0043]第二方面,本专利技术提供了一种基于特征的文本到图像生成装置,包括:
[0044]测试文本模块,用于获取测试文本,对测试文本进行编码处理生成文本特征;
[0045]噪声生成模块,用于随机生成分布噪声,将随机生成的分布噪声作为图像特征;
[0046]模型运行模块,用于将文本特征和图像特征输入训练好的图像生成模型,获取输出的生成图像;
[0047]其中,所述图像生成模型的训练包括:
[0048]数据获取模块,用于获取由大量训练文本及对应的真实图像构成的数据集;
[0049]模型构建模块,用于基于生成对抗网络设计图像生成模块,所述图像生成模块包括生成器和判别器;
[0050]数据取出模块,用于从数据集中取出训练文本及其对应的真实图像;
[0051]特征生成模块,用于对取出的训练文本及其对应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特征的文本到图像生成方法,其特征在于,包括:获取测试文本,对测试文本进行编码处理生成文本特征;随机生成分布噪声,将随机生成的分布噪声作为图像特征;将文本特征和图像特征输入训练好的图像生成模型,获取输出的生成图像;其中,所述图像生成模型的训练包括:获取由大量训练文本及对应的真实图像构成的数据集;基于生成对抗网络设计图像生成模块,所述图像生成模块包括生成器和判别器;从数据集中取出训练文本及其对应的真实图像;对取出的训练文本及其对应的真实图像分别进行编码处理生成文本特征和图像特征;将文本特征和图像特征输入生成器,获取输出的生成图像;将文本特征、生成图像和真实图像输入判别器,并根据判别器的输出计算对抗性损失;将文本特征、生成图像和真实图像输入相似性比较器,计算相似性比较损失;根据对抗性损失和相似性比较损失优化生成器和判别器;返回步骤:从数据集中取出训练文本及其对应的真实图像,对图像生成模块进行迭代训练。2.根据权利要求1所述的一种基于特征的文本到图像生成方法,其特征在于,所述生成文本特征包括:采用由预训练的CLIP模型作为文本编码器,所述文本编码器将文本编码为文本特征,所述文本特征包括句子级特征和单词级特征,其表达式为:(f
s
,f
w
)=E
T
(t)式中,E
T
为文本编码器,t为文本,f
s
∈R
512
为句子级特征,R
512
为512大小的实数向量,f
w
∈R
512
×
seq_len
为单词级特征,R
512
×
seq_len
为512
×
seq_len大小的实数矩阵,seq_len为序列长度。3.根据权利要求2所述的一种基于特征的文本到图像生成方法,其特征在于,所述生成图像特征包括:采用由预训练的ViT

B/32模型作为图像编码器,所述图像编码器将真实图像编码为初始的图像特征,其表达式为:f
x
=E
I
(x)式中,E
I
为图像编码器,x为真实图像,f
x
为初始的图像特征;采用预设的分布编码器将图像特征映射成一个连续流形,用独立的高斯分布表示:N(μ(f
x
),σ(f
x
));对所述分布编码器添加正则化以确保连续流形的平滑度;基于初始的图像特征根据连续流形生成最终的图像特征,其表达式为:z=E
z
(f
x
)=μ(f
x
)+∈
×
σ(f
x
)式中,E

【专利技术属性】
技术研发人员:周媛王鹏
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1