当前位置: 首页 > 专利查询>吉林大学专利>正文

基于文本监督的双向数据流生成对抗网络图像生成方法技术

技术编号:37720865 阅读:13 留言:0更新日期:2023-06-02 00:20
本发明专利技术适用于图像生成技术领域,提供了基于文本监督的双向数据流生成对抗网络图像生成方法,包括以下步骤:步骤一:输入文本,并对文本中的句子和单词进行双通道处理,形成了一种全局

【技术实现步骤摘要】
基于文本监督的双向数据流生成对抗网络图像生成方法


[0001]本专利技术涉及图像生成
,具体是基于文本监督的双向数据流生成对抗网络图像生成方法。

技术介绍

[0002]随着数据时代爆发性的数据增长,与繁琐的文本信息相比,人们更倾心于直观可见的图片信息,这让基于文本监督的图像生成方法逐渐火热起来。同时,近年来多模态的研究吸引了越来越多学者的关注,尤其是计算机视觉和自然语言处理的交叉领域研究。基于文本监督的图像生成任务是指将以文本形式呈现的关键词或语句生成与文本语义相近的图像。由于近年来生成对抗网络(GAN,Generative Adversarial Networks)在图像生成任务上的成功,所以在目前该类任务中大多使用GAN作为模型框架来生成高分辨率的图像,例如植物、动物和人脸等,与其他的生成模型相比,GAN不仅可以避免各种复杂的计算,而且生成的图片质量也更好。
[0003]GAN是一种模拟博弈游戏的训练网络,由生成器G和判别器D两部分组成,生成器学习真实样本的分布,从而生成接近真实样本的伪样本来欺骗判别器,而判别器主要是区分其输入是真实样本和伪样本,通过让生成器和判别器互相博弈对抗达到纳什平衡状态,从而达到优化的效果,使生成器生成的数据最大可能地接近真实样本,即使得判别器无法判别出来其输入是真实样本还是伪样本。GAN模型的训练可以分为三个步骤:首先,固定判别器D,训练生成器G;其次,固定生成器G,训练判别器D;最后循环前两步骤并不断进行训练。目前在生成对抗网络中应用最为广泛的两种神经网络是卷积神经网络和自动编码器神经网络。基于卷积神经网路搭建的GAN,其生成器是由多个卷积网络层组成,例如最先采用此结构的DCGAN,该模型引入了批量正则化来稳定GAN的训练过程;而自动编码网络,则是输入值设置为目标值,用自监督方法来进行训练,是一种可用于无监督学习的自重构神经网络。例如VAEGAN,就是用判别器来表示VAE的重构过程中的损失,从而结合自动编码器和GAN两者的优势来生成优质图像。原始的GAN有很多缺陷,国内外众多论文从不同角度提出了对GAN的改进方案,Karras等人为提高对生成图像特定特征的控制,提出基于风格的生成器(style

based generator),通过分别修改每层输入来控制各层的视觉特征;此外,Qiao等人为使生成图像更加细致,在GAN中引入注意力机制,通过关注文本描述中的关键词,从而能够在图像的不同子区域生成更精细的信息;Zhu等人提出DM

GAN,设计出一个动态记忆模型(dynamic memory module)选择与生成图像相关的单词,使得生成的图像很好地匹配文本描述。但是,使用单词级别的注意力机制并不能确保全局语义的一致性,由于文本和图像模式的多样性,Li等人提出的MirrorGAN可以先根据文本生成图像,再将图像重新转换成文本,进行对比来解决一致性问题;Zhu等人通过ManiGAN试图解决生成图像的属性与给定文本中的属性表述不一致的问题,该方法提出文本和图像的仿射结合模型,以融合图像特征与文本特征,并设计细节改正模型来纠正图像与文本属性不一致问题,同时补全图片细节,以上方法不同程度地提升了生成图片的质量。基于生成对抗网络强大的能力,已有许多经
典的工作,旨在使计算机能够根据输入的文本自动生成预期的视觉内容。同时也在多个任务实现落地应用,创造了较大的实际价值。如广告设计、艺术创作、动画制作、虚拟现实、目标检测、监控跟踪等。一系列视觉生成技术用人工智能技术赋能相关产业,助力产业自动化、智能化改革与转型。
[0004]总体来说,图像生成技术的最大挑战在于其生成的图像尚且无法与人类的视觉认知达成高度一致。首先,图像生成的样本随机性较大,只能实现一些简单的任务,大多图像转换缺少对图像变化细节(如物体形状、纹理以及背景等)进行学习的能力;其次,现有的图像生成技术可控性差,大部分只能进行随机视觉生成,无法用于对生成可控性和生成细节要求高的任务中;最后,图像生成用于风格迁移等任务上时只能实现两个域之间的迁移,而多域迁移的效果很差。因此,针对以上生成图像细节粗糙、与文本匹配度不高等现状,迫切需要提供基于文本监督的双向数据流生成对抗网络图像生成方法,以克服当前实际应用中的不足。

技术实现思路

[0005]本专利技术的目的在于提供基于文本监督的双向数据流生成对抗网络图像生成方法,旨在解决上述技术背景中的生成图像细节粗糙及与给定文本匹配度不高的问题。
[0006]本专利技术公布的,基于文本监督的双向数据流生成对抗网络图像生成方法包括以下步骤:
[0007]步骤一:输入文本,并采用循环神经网络对文本中的句子和单词进行双通道处理,形成了一种全局

局部注意力机制,随后通过生成器生成图像;
[0008]步骤二:将步骤一中生成的图像通过卷积神经网络重新转换为新文本,并将新文本与图像分别经过文本编码器和图像编码器获得各自的嵌入表示向量,进而基于嵌入表示向量计算二者的相似度;
[0009]步骤三:依据步骤二中的相似度进行判断,再通过生成模型反向传播,更新潜在空间的嵌入表示向量,重复前向和后向传递直到收敛,得到最大相似度,最后输出最优图像。
[0010]作为本专利技术进一步的方案:在步骤一中,引入注意力机制,引导生成器在生成不同领域的图像时关注不同的单词。
[0011]作为本专利技术进一步的方案:在步骤一中,双通道处理的具体步骤为:
[0012]将给定的文本描述T
ext
同时嵌入到单词级别特征和句子级别特征中,得到:
[0013]w,s=RNN(T
ext
);
[0014]T
eXt
={T
l
|l=0,1,2......L

1};
[0015]w={w
l
|l=0,1,2......L

1};
[0016]其中w表示单词级别特征,s表示句子级别特征,L表示句子的长度,w
l
表示每个单词的隐藏状态。
[0017]作为本专利技术进一步的方案:对于句子的处理使用条件增强方法来增强文本描述,以此得到增强的句子向量s
ca
,即
[0018]s
ca
=F
ca
(s);
[0019]其中,F
ca
表示条件增强函数。
[0020]作为本专利技术进一步的方案:在步骤一的图像生成结构中,通过堆叠视觉转换器H和
图像生成器G的方法来达到高质量图像的效果,具体公式为:
[0021]h0=H0(z,s);
[0022][0023]其中z~N(0,1)表示随机噪声,h0表示隐藏状态,z表示随机噪声的输入,并服从标准的正态分布,单词级别的语义特征是将w和视觉嵌入h
i
作为输入,U
i
‑1w是w通过视觉转换器感知层得到。...

【技术保护点】

【技术特征摘要】
1.基于文本监督的双向数据流生成对抗网络图像生成方法,其特征在于,包括以下步骤:步骤一:输入文本,并采用循环神经网络对文本中的句子和单词进行双通道处理,形成了一种全局

局部注意力机制,随后通过生成器生成图像;步骤二:将步骤一中生成的图像通过卷积神经网络重新转换为新文本,并将新文本与图像分别经过文本编码器和图像编码器获得各自的嵌入表示向量,进而基于嵌入表示向量计算二者的相似度;步骤三:依据步骤二中的相似度进行判断,再通过生成模型反向传播,更新潜在空间的嵌入表示向量,重复前向和后向传递直到收敛,得到最大相似度,最后输出最优图像。2.根据权利要求1所述的基于文本监督的双向数据流生成对抗网络图像生成方法,其特征在于,在步骤一中,引入注意力机制,引导生成器在生成不同领域的图像时关注不同的单词。3.根据权利要求1所述的基于文本监督的双向数据流生成对抗网络图像生成方法,其特征在于,在步骤一中,双通道处理的具体步骤为:将给定的文本描述T
ext
同时嵌入到单词级别的特征和句子级别的特征中,得到:w,s=RNN(T
ext
);T
ext
={T
l
|l=0,1,2......L

1};w={w
l
|l=0,1,2......L

1};其中w表示单词级别特征,s表示句子级别特征,L表示句子的长度,w
l
表示每个单词的隐藏状态。4.根据权利要求3所述的基于文本监督的双向数据流生成对抗网络图像生成方法,其特征在于,对于句子的处理使用条件增强方法来增强文本描述,以此得到增强的句子向量s
ca
,即s
ca
=F
ca
(s);其中,F
ca
表示条件增强函数。5.根据权利要求1所述的基于文本监督的双向数据流生成对抗网络图像生成方法,其特征在于,在步骤一的图像生成结构中,通过堆叠视觉转换器H和图像生成器G的方法来达到高质量图像的效果,具体公式为:h0=H0(z,s);其中z~N(0,1)表示随机噪声,h0表示隐藏状态,z表示随机噪声的输入,并服从标准的正态分布,单词级别的语义特征是将w和视觉嵌入h
i
作为输入,U
i
‑1w是w通过视觉转换器感知层得到。6.根据权利要求1所述的基于文本监督的双向数据流生成对抗网络图像生成方法,其特征在于,在步骤一中,对于句子级别的语义特征,采用全局约束,具体为:h1=H
i
(h
...

【专利技术属性】
技术研发人员:张爱琳吴春国刘桂霞张秀伊邱正中
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1