一种基于特征的文本到图像生成方法、装置及介质制造方法及图纸

技术编号：37146430 阅读：49 留言：0更新日期：2023-04-06 21:58

本发明专利技术公开了一种基于特征的文本到图像生成方法、装置及介质，其方法包括获取测试文本，进行编码处理生成文本特征；随机生成分布噪声并作为图像特征；将文本特征和图像特征输入训练好的图像生成模型，获取输出的生成图像；其中，图像生成模型的训练包括：获取由大量训练文本及对应的真实图像构成的数据集；基于生成对抗网络设计图像生成模块，图像生成模块包括生成器和判别器；从数据集中取出训练文本及其对应的真实图像；对取出的训练文本及其对应的真实图像分别进行编码处理生成文本特征和图像特征，并计算对抗性损失和相似性比较损失，根据对抗性损失和相似性比较损失优化生成器和判别器，并进行迭代训练；本发明专利技术能够提升图像生成的准确性。图像生成的准确性。图像生成的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于特征的文本到图像生成方法、装置及介质

[0001]本专利技术涉及一种基于特征的文本到图像生成方法、装置及介质，属于图像合成

技术介绍

[0002]文本到图像合成(T2I)，以文本描述为输入，输出与描述对应的具有高度语义相关性的图像，将自然语言与计算机视觉连接起来，从而促进人工智能在“看”和“理解”上的应用。从文本描述中自动生成图像因其在许多应用中的重要性而吸引了许多努力的兴趣。根据外观描述生成肖像，使用给定的样式标签设计所需的图像，在零样本学习中基于类描述合成看不见的特征。根据是否使用生成对抗网络(GAN)作为主要框架，T2I方法可以大致分为两类：基于非GAN的模型和基于GAN的模型。
[0003]现有技术虽然基于GAN的工作取得了显著成果，但多阶段或循环的训练策略使得在现实世界中应用T2I变得很麻烦。古语有云，“一望千言”。这些模型将带有来自标准正态分布的随机样本的文本作为输入，与真实图像相比，文本和随机噪声都无法覆盖足够的信息。因此，使用来自标准正态分布的样本进行生成并不是最佳选择。此外，这些模...

【技术保护点】

【技术特征摘要】
1.一种基于特征的文本到图像生成方法，其特征在于，包括：获取测试文本，对测试文本进行编码处理生成文本特征；随机生成分布噪声，将随机生成的分布噪声作为图像特征；将文本特征和图像特征输入训练好的图像生成模型，获取输出的生成图像；其中，所述图像生成模型的训练包括：获取由大量训练文本及对应的真实图像构成的数据集；基于生成对抗网络设计图像生成模块，所述图像生成模块包括生成器和判别器；从数据集中取出训练文本及其对应的真实图像；对取出的训练文本及其对应的真实图像分别进行编码处理生成文本特征和图像特征；将文本特征和图像特征输入生成器，获取输出的生成图像；将文本特征、生成图像和真实图像输入判别器，并根据判别器的输出计算对抗性损失；将文本特征、生成图像和真实图像输入相似性比较器，计算相似性比较损失；根据对抗性损失和相似性比较损失优化生成器和判别器；返回步骤：从数据集中取出训练文本及其对应的真实图像，对图像生成模块进行迭代训练。2.根据权利要求1所述的一种基于特征的文本到图像生成方法，其特征在于，所述生成文本特征包括：采用由预训练的CLIP模型作为文本编码器，所述文本编码器将文本编码为文本特征，所述文本特征包括句子级特征和单词级特征，其表达式为：(f
s
，f
w
)＝E
T
(t)式中，E
T
为文本编码器，t为文本，f
s
∈R
512
为句子级特征，R
512
为512大小的实数向量，f
w
∈R
512
×
seq_len
为单词级特征，R
512
×
seq_len
为512
×
seq_len大小的实数矩阵，seq_len为序列长度。3.根据权利要求2所述的一种基于特征的文本到图像生成方法，其特征在于，所述生成图像特征包括：采用由预训练的ViT
‑
B/32模型作为图像编码器，所述图像编码器将真实图像编码为初始的图像特征，其表达式为：f
x
＝E
I
(x)式中，E
I
为图像编码器，x为真实图像，f
x
为初始的图像特征；采用预设的分布编码器将图像特征映射成一个连续流形，用独立的高斯分布表示：N(μ(f
x
)，σ(f
x
))；对所述分布编码器添加正则化以确保连续流形的平滑度；基于初始的图像特征根据连续流形生成最终的图像特征，其表达式为：z＝E
z
(f
x
)＝μ(f
x
)+∈
×
σ(f
x
)式中，E

【专利技术属性】
技术研发人员：周媛，王鹏，
申请(专利权)人：南京信息工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人