【技术实现步骤摘要】
一种基于分布估计的条件生成对抗网络文本生成图像方法
[0001]本专利技术提到了一种基于分布估计的条件生成对抗神经网络(cGAN)的新损失形式,用于跨模态的文本生成图像任务。
技术介绍
[0002]人类将书面文本内容形象化、视觉化的能力在许多认知过程中起重要的作用,如记忆,空间推理等。受人类可视化的能力的启发,构建一个在语言和视觉之间转化的跨模态系统,也成了人工智能领域新的追求。
[0003]图像是一种更准确、高效和便捷的信息共享和传递的方式,相比书面文本而言。近几年,深度学习的发展使计算机视觉和图像生成技术也更进一步。生成对抗神经网络(GAN)的出现使得图像生成任务可以以无监督的形式训练。同时,随着生成对抗网络(GAN)的进一步发展,文本描述这类条件变量也融合进了图像生成任务的框架内。通过条件生成对抗神经网络(cGAN),可以以文本描述为条件,生成与文本描述相对应的图像。文本描述能携带关于当前对象的属性、空间位置、关系等密集语义信息,并且可以表示不同的场景,从而实现了语言到视觉的转化过程。
[0004]从文 ...
【技术保护点】
【技术特征摘要】
1.一种基于分布估计的条件生成对抗网络文本生成图像方法,其特征在于包括如下步骤:步骤(1)、数据预处理,提取文本数据的特征;步骤(2)、建立多阶段的无条件和有条件联合生成对抗神经网络和损失函数;步骤(3)、引入基于分布估计的损失函数;步骤(4)、模型训练;根据得到的新的损失函数,在训练过程中对判别器D
i
和生成器G
i
进行交替训练。2.根据权利要求书1所述的一种基于分布估计的条件生成对抗网络文本生成图像方法,其特征在于步骤(1)具体实现如下:引文数据集CUB
‑
200是包含200类的鸟类图像,总计11788张图像;按照指定的划分训练集和验证集,训练集包含8,855张图像,2,933张图像作为测试集;每张图像描述了一个单一的物体(鸟),每张图像有10个相关的文本描述;由于该数据集中80%的鸟类的对象和图像大小比小于0.5,对数据进行预处理,裁剪所有图像,以确保鸟类的边界框的对象和图像大小比大于0.75;使用的真实图像的大小为299
×
299;COCO由大约123k张图像组成,每张图像有5个描述;其中80k的图像被划分为训练集,40k的图像用作测试集;对数据集中的自然语言文本描述进行文本特征集合的提取,使用一个预训练好的双向的长短期记忆网络从文本描述中提取文本特征集合,文本特征集合包含单词的特征和句子的特征;在双向长短期记忆网络中,每个单词对应两个隐藏状态,每个方向对应一个状态;因此,连接它的两个隐藏状态作为一个单词的特征,最后得到一个单词特征矩阵e∈R
D
×
T
,其中矩阵的第i列向量e
i
表示第i个单词的特征,D=256表示单词特征的维度,T=25是单词的数量;同时,将双向的长短期记忆网络的最后一层隐藏状态连接起来,作为全局句子特征3.根据权利要求书1或2所述的一种基于分布估计的条件生成对抗网络文本生成图像方法,其特征在于步骤(2)具体实现如下:2
‑
1采用DM
‑
GAN作为基准模型,多阶段的层叠网络通过堆叠生成器和判别器来提高图像的分辨率;对于模型的生成器,给定随机噪声z~N(0,1)和条件变量c,维度分别是100和256维;通过F0和F
i
得到下一阶段生成器的输入h0=F0(c,z)、h
i
=F
i
(h
i
‑1,z),h
i
‑1输入下一阶段生成器网络F
i
得到h
i
,其中F
i
是生成器中的神经网络;F0由一个全连接层和四层卷积网络构成,F
i
由动态内存写入机制、两个残差模块和一个卷积层构成;对于生成器G
...
【专利技术属性】
技术研发人员:俞俊,刘贝利,丁佳骏,范建平,付圣祺,沈铭,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。