当前位置: 首页 > 专利查询>湖南大学专利>正文

一种基于双向架构对抗生成网络的由文字生成图片的方法技术

技术编号:24857565 阅读:29 留言:0更新日期:2020-07-10 19:10
本发明专利技术公开了一种基于双向架构对抗生成网络的由文字生成图片的方法,首先使用一个预训练的文字编码网络来分析文本含义,并将之映射至一个语义向量空间,然后双向架构对抗生成网络模型就可以利用语义向量来生成一张与之对应的图片。与相关技术相比,本发明专利技术具有如下优点:利用了双向架构思想,结合对抗生成网络实现了仅依赖文本来生成高质量图片的过程,并且通过改进注意力机制和调整batch normalization达到了加强图片和文本之间的语义一致性的目的,实验证明,这种模型架构可以显著提高合成图片的质量以及多样性。

【技术实现步骤摘要】
一种基于双向架构对抗生成网络的由文字生成图片的方法
本专利技术涉及文字处理
,尤其涉及一种基于双向架构对抗生成网络的由文字生成图片的方法。
技术介绍
基于文字的语义来生成一张与之对应并符合现实的图片涉及多个领域,在文字处理步骤需要使用自然语言处理领域的技术,在生成图片时又需要计算机视觉的相关知识。所以目前已有的技术大多都是分为两个部分来实现:1.文字编码,此步骤一般使用两个神经网络来分别处理文字与图片,通过学习将之映射至同一个向量空间。比如在AttnGAN网络中使用了一个CNN网络来处理图片,使用了一个LSTM网络来处理文字,然后通过特定的目标函数来优化两者之间的相似度,以达到文字的语义能过与图片相对应的目的。2.生成图片,在获得文字编码模型之后就可以将文字转换为向量,然后将之作为对抗生成网络中生成器的输入,即可得到一张生成的图片。通过训练对抗生成网络,我们就可以得到一个能过根据语义生成与之对应并足够真实的生成模型。在上述的过程中,非常依赖于对抗生成网络的能力,现有的方法大多都是通过叠加多个生成器或者添加注意力机制来提高图片的生成质量。然而,文本自身的语义与图片自身的视觉内容之间还存在着难以跨越的鸿沟,难以建立语义一致性。Qiao等人通过引入一个图像标注模型来解决这个问题,但是此方法太过于依赖图像标注模型的表现;Yin等人利用siamese网络,从文本描述中直接提取语义一致性,但是这种方法又太过于依赖训练数据集的文本丰富度,在实际使用中并不理想。总的来说,现有的方法都存在一定的局限性,难以推广。
技术实现思路
本专利技术的目的在于提供一种基于双向架构对抗生成网络的由文字生成图片的方法,其能够凭借一段文本描述生成与之相对应的且符合真实环境的图片,并显著提升生成图片的质量。为了实现上述目的,本专利技术的技术方案如下:一种基于双向架构对抗生成网络的由文字生成图片的方法,其特征在于,该方法包括如下步骤:步骤一、准备数据集,分为训练集和测试机;步骤二、对数据集中的数据进行预处理;步骤三、对训练集中的文本部分使用文本编码器提取出单词编码和句子编码;步骤四、对训练集中的图像部分使用图像编码器提取出图像编码;步骤五、对句子编码进行CA操作,得到Fca向量;步骤六、将Fca向量与一段噪声进行拼接,再与单词编码、句子编码一起输入生成器;步骤七、生成器输出生成图片;步骤八、将生成图片和句子编码、Fca向量以及图像编码输入判别器;步骤九、计算损失函数;步骤十、优化损失函数,继续训练;步骤十一、经过多次迭代计算,得到训练后的模型;步骤十二、将测试集中的文字经过同样的文本特征提取工作,输入模型得到测试结果;步骤十三、实验结果及评估。优选的:在步骤一中,数据集的划分是根据原数据集提供的划分。优选的:在步骤一中,所述数据集为CUB鸟类数据集和COCO数据集。优选的:在步骤二中,预处理具体包括:构建词典,在词典中添加NULL;构建文本向量,采用长度为18的一维向量,单词数不足18的句子在句末补NULL,单词数大于18的句子将随机进行选取18个单词,再将每个单词映射至其在词典中的下标;预处理图片,采用随机翻转、裁剪,然后通过缩放得到64x64、128x128以及256x256的图片。优选的:在步骤三中,采用Attngan中文本编码部分的预训练模型作为文本编码器,其采用的是RNN网络,用公式表达为:w,s=RNN(Text)其中w为单词编码,是一个D×L的矩阵,其中D代表维度,L代表单词个数即句子长度;s为句子编码,是一个长度为D的一维向量。优选的:在步骤五中,CA操作具体包括:将句子编码通过两层全连接层;使用一个独立的高斯分布N(μ(s),σ(s))对其进行重采样,用公式表达为:Fca=CA(s)其中Fca是提取出来的d维的语义特征向量,s为句子编码,CA(s)代表对句子编码进行CA操作。优选的:在步骤六中,所述生成器的数量为三个,且上一个生成器的输出作为下一个生成器的输入,分别可以生成64×64、128×128和256×256的图片。优选的:三个所述生成器的网络结构相同,但其中的网络层使用的参数不同,具体的网络结构由SEAttn层、卷积层、上采样层和SEBN层组成。优选的:在步骤九中,采用以下函数计算损失函数:其中h1(t)=max(0,1-t)和h2(t)=max(0,1+t)叫做“hinge”损失,其用来正则化判别器的输出,x代表来自训练集中或者生成器生成的图片,来自训练集中的图片服从图像数据分布Pdata,而生成图片的分布用PG表示,Di代表判别器,E代表图像编码器,s为句子编码,sca是Fca向量。优选的:在步骤十中,训练具体包括:将处理后的文本数据输入文本编码器,得到句子编码和单词编码;将处理后的图像输入至图像编码器,然后将图像编码器的输出作类似CA操作中重采样;将句子编码、单词编码、噪声、输入生成器,分别得到64x64、128x128和256x256的生成图片;将生成的图片、生成图片的分布作为对应的一组输入判别器,将真实图片、真实图片的分布作为对应的一组输出判别器;计算判别器的损失,并反向传播更新参数;固定住判别器的参数,计算图像编码器的损失,并反向传播更新参数;固定住判别器与图像编码器的参数,计算生成器的损失,并反向传播更新参数;另选一组数据,重复以上步骤,直至模型收敛。与相关技术相比,本专利技术具有如下优点:利用了双向架构思想,结合对抗生成网络实现了仅依赖文本来生成高质量图片的过程,并且通过改进注意力机制和调整batchnormalization达到了加强图片和文本之间的语义一致性的目的,实验证明,这种模型架构可以显著提高合成图片的质量以及多样性。【附图说明】为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:图1为本专利技术基于双向架构对抗生成网络的由文字生成图片的方法的流程图;图2为本专利技术生成器的网络结构图。【具体实施方式】下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。请参阅图1所示,本专利技术提供了一种基于双向架构对抗生成网络的由文字生成图片的方法,其特征在于,该方法包括如下步骤:步骤一、准备数本文档来自技高网
...

【技术保护点】
1.一种基于双向架构对抗生成网络的由文字生成图片的方法,其特征在于,该方法包括如下步骤:/n步骤一、准备数据集,分为训练集和测试机;/n步骤二、对数据集中的数据进行预处理;/n步骤三、对训练集中的文本部分使用文本编码器提取出单词编码和句子编码;/n步骤四、对训练集中的图像部分使用图像编码器提取出图像编码;/n步骤五、对句子编码进行CA操作,得到Fca向量;/n步骤六、将Fca向量与一段噪声进行拼接,再与单词编码、句子编码一起输入生成器;/n步骤七、生成器输出生成图片;/n步骤八、将生成图片和句子编码、Fca向量以及图像编码输入判别器;/n步骤九、计算损失函数;/n步骤十、优化损失函数,继续训练;/n步骤十一、经过多次迭代计算,得到训练后的模型;/n步骤十二、将测试集中的文字经过同样的文本特征提取工作,输入模型得到测试结果;/n步骤十三、实验结果及评估。/n

【技术特征摘要】
1.一种基于双向架构对抗生成网络的由文字生成图片的方法,其特征在于,该方法包括如下步骤:
步骤一、准备数据集,分为训练集和测试机;
步骤二、对数据集中的数据进行预处理;
步骤三、对训练集中的文本部分使用文本编码器提取出单词编码和句子编码;
步骤四、对训练集中的图像部分使用图像编码器提取出图像编码;
步骤五、对句子编码进行CA操作,得到Fca向量;
步骤六、将Fca向量与一段噪声进行拼接,再与单词编码、句子编码一起输入生成器;
步骤七、生成器输出生成图片;
步骤八、将生成图片和句子编码、Fca向量以及图像编码输入判别器;
步骤九、计算损失函数;
步骤十、优化损失函数,继续训练;
步骤十一、经过多次迭代计算,得到训练后的模型;
步骤十二、将测试集中的文字经过同样的文本特征提取工作,输入模型得到测试结果;
步骤十三、实验结果及评估。


2.根据权利要求1所述的一种基于双向架构对抗生成网络的由文字生成图片的方法,其特征在于:在步骤一中,数据集的划分是根据原数据集提供的划分。


3.根据权利要求1或2所述的一种基于双向架构对抗生成网络的由文字生成图片的方法,其特征在于:在步骤一中,所述数据集为CUB鸟类数据集和COCO数据集。


4.根据权利要求1所述的一种基于双向架构对抗生成网络的由文字生成图片的方法,其特征在于:在步骤二中,预处理具体包括:
构建词典,在词典中添加NULL;
构建文本向量,采用长度为18的一维向量,单词数不足18的句子在句末补NULL,单词数大于18的句子将随机进行选取18个单词,再将每个单词映射至其在词典中的下标;
预处理图片,采用随机翻转、裁剪,然后通过缩放得到64x64、128x128以及256x256的图片。


5.根据权利要求1所述的一种基于双向架构对抗生成网络的由文字生成图片的方法,其特征在于:在步骤三中,采用Attngan中文本编码部分的预训练模型作为文本编码器,其采用的是RNN网络,用公式表达为:
w,s=RNN(Text)
其中w为单词编码,是一个D×L的矩阵,其中D代表维度,L代表单词个数即句子长度;s为句子编码,是一个长度为D的一维向量。


6.根据权利要求1所述的一种基于双向架构对抗...

【专利技术属性】
技术研发人员:全哲胡新健王梓旭
申请(专利权)人:湖南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1