基于文本监督的双向数据流生成对抗网络图像生成方法技术

技术编号：37720865 阅读：13 留言：0更新日期：2023-06-02 00:20

本发明专利技术适用于图像生成技术领域，提供了基于文本监督的双向数据流生成对抗网络图像生成方法，包括以下步骤：步骤一：输入文本，并对文本中的句子和单词进行双通道处理，形成了一种全局

全部详细技术资料下载

【技术实现步骤摘要】
基于文本监督的双向数据流生成对抗网络图像生成方法

[0001]本专利技术涉及图像生成
，具体是基于文本监督的双向数据流生成对抗网络图像生成方法。

技术介绍

[0002]随着数据时代爆发性的数据增长，与繁琐的文本信息相比，人们更倾心于直观可见的图片信息，这让基于文本监督的图像生成方法逐渐火热起来。同时，近年来多模态的研究吸引了越来越多学者的关注，尤其是计算机视觉和自然语言处理的交叉领域研究。基于文本监督的图像生成任务是指将以文本形式呈现的关键词或语句生成与文本语义相近的图像。由于近年来生成对抗网络(GAN,Generative Adversarial Networks)在图像生成任务上的成功，所以在目前该类任务中大多使用GAN作为模型框架来生成高分辨率的图像，例如植物、动物和人脸等，与其他的生成模型相比，GAN不仅可以避免各种复杂的计算，而且生成的图片质量也更好。
[0003]GAN是一种模拟博弈游戏的训练网络，由生成器G和判别器D两部分组成，生成器学习真实样本的分布，从而生成接近真实样本的伪样本来欺骗判别器，而判别器主要是区分其输入是真实样本和伪样本，通过让生成器和判别器互相博弈对抗达到纳什平衡状态，从而达到优化的效果，使生成器生成的数据最大可能地接近真实样本，即使得判别器无法判别出来其输入是真实样本还是伪样本。GAN模型的训练可以分为三个步骤：首先，固定判别器D，训练生成器G；其次，固定生成器G，训练判别器D；最后循环前两步骤并不断进行训练。目前在生成对抗网络中应用最为广泛的两种神经网络是卷积神经网络

【技术保护点】

【技术特征摘要】
1.基于文本监督的双向数据流生成对抗网络图像生成方法，其特征在于，包括以下步骤：步骤一：输入文本，并采用循环神经网络对文本中的句子和单词进行双通道处理，形成了一种全局
‑
局部注意力机制，随后通过生成器生成图像；步骤二：将步骤一中生成的图像通过卷积神经网络重新转换为新文本，并将新文本与图像分别经过文本编码器和图像编码器获得各自的嵌入表示向量，进而基于嵌入表示向量计算二者的相似度；步骤三：依据步骤二中的相似度进行判断，再通过生成模型反向传播，更新潜在空间的嵌入表示向量，重复前向和后向传递直到收敛，得到最大相似度，最后输出最优图像。2.根据权利要求1所述的基于文本监督的双向数据流生成对抗网络图像生成方法，其特征在于，在步骤一中，引入注意力机制，引导生成器在生成不同领域的图像时关注不同的单词。3.根据权利要求1所述的基于文本监督的双向数据流生成对抗网络图像生成方法，其特征在于，在步骤一中，双通道处理的具体步骤为：将给定的文本描述T
ext
同时嵌入到单词级别的特征和句子级别的特征中，得到：w，s＝RNN(T
ext
)；T
ext
＝{T
l
|l＝0，1，2......L
‑
1}；w＝{w
l
|l＝0，1，2......L
‑
1}；其中w表示单词级别特征，s表示句子级别特征，L表示句子的长度，w
l
表示每个单词的隐藏状态。4.根据权利要求3所述的基于文本监督的双向数据流生成对抗网络图像生成方法，其特征在于，对于句子的处理使用条件增强方法来增强文本描述，以此得到增强的句子向量s
ca
，即s
ca
＝F
ca
(s)；其中，F
ca
表示条件增强函数。5.根据权利要求1所述的基于文本监督的双向数据流生成对抗网络图像生成方法，其特征在于，在步骤一的图像生成结构中，通过堆叠视觉转换器H和图像生成器G的方法来达到高质量图像的效果，具体公式为：h0＝H0(z，s)；其中z～N(0，1)表示随机噪声，h0表示隐藏状态，z表示随机噪声的输入，并服从标准的正态分布，单词级别的语义特征是将w和视觉嵌入h
i
作为输入，U
i
‑1w是w通过视觉转换器感知层得到。6.根据权利要求1所述的基于文本监督的双向数据流生成对抗网络图像生成方法，其特征在于，在步骤一中，对于句子级别的语义特征，采用全局约束，具体为：h1＝H
i
(h
...

【专利技术属性】
技术研发人员：张爱琳，吴春国，刘桂霞，张秀伊，邱正中，
申请(专利权)人：吉林大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人