【技术实现步骤摘要】
一种基于双向架构对抗生成网络的由文字生成图片的方法
本专利技术涉及文字处理
,尤其涉及一种基于双向架构对抗生成网络的由文字生成图片的方法。
技术介绍
基于文字的语义来生成一张与之对应并符合现实的图片涉及多个领域,在文字处理步骤需要使用自然语言处理领域的技术,在生成图片时又需要计算机视觉的相关知识。所以目前已有的技术大多都是分为两个部分来实现:1.文字编码,此步骤一般使用两个神经网络来分别处理文字与图片,通过学习将之映射至同一个向量空间。比如在AttnGAN网络中使用了一个CNN网络来处理图片,使用了一个LSTM网络来处理文字,然后通过特定的目标函数来优化两者之间的相似度,以达到文字的语义能过与图片相对应的目的。2.生成图片,在获得文字编码模型之后就可以将文字转换为向量,然后将之作为对抗生成网络中生成器的输入,即可得到一张生成的图片。通过训练对抗生成网络,我们就可以得到一个能过根据语义生成与之对应并足够真实的生成模型。在上述的过程中,非常依赖于对抗生成网络的能力,现有的方法大多都是通过叠加 ...
【技术保护点】
1.一种基于双向架构对抗生成网络的由文字生成图片的方法,其特征在于,该方法包括如下步骤:/n步骤一、准备数据集,分为训练集和测试机;/n步骤二、对数据集中的数据进行预处理;/n步骤三、对训练集中的文本部分使用文本编码器提取出单词编码和句子编码;/n步骤四、对训练集中的图像部分使用图像编码器提取出图像编码;/n步骤五、对句子编码进行CA操作,得到Fca向量;/n步骤六、将Fca向量与一段噪声进行拼接,再与单词编码、句子编码一起输入生成器;/n步骤七、生成器输出生成图片;/n步骤八、将生成图片和句子编码、Fca向量以及图像编码输入判别器;/n步骤九、计算损失函数;/n步骤十、优 ...
【技术特征摘要】
1.一种基于双向架构对抗生成网络的由文字生成图片的方法,其特征在于,该方法包括如下步骤:
步骤一、准备数据集,分为训练集和测试机;
步骤二、对数据集中的数据进行预处理;
步骤三、对训练集中的文本部分使用文本编码器提取出单词编码和句子编码;
步骤四、对训练集中的图像部分使用图像编码器提取出图像编码;
步骤五、对句子编码进行CA操作,得到Fca向量;
步骤六、将Fca向量与一段噪声进行拼接,再与单词编码、句子编码一起输入生成器;
步骤七、生成器输出生成图片;
步骤八、将生成图片和句子编码、Fca向量以及图像编码输入判别器;
步骤九、计算损失函数;
步骤十、优化损失函数,继续训练;
步骤十一、经过多次迭代计算,得到训练后的模型;
步骤十二、将测试集中的文字经过同样的文本特征提取工作,输入模型得到测试结果;
步骤十三、实验结果及评估。
2.根据权利要求1所述的一种基于双向架构对抗生成网络的由文字生成图片的方法,其特征在于:在步骤一中,数据集的划分是根据原数据集提供的划分。
3.根据权利要求1或2所述的一种基于双向架构对抗生成网络的由文字生成图片的方法,其特征在于:在步骤一中,所述数据集为CUB鸟类数据集和COCO数据集。
4.根据权利要求1所述的一种基于双向架构对抗生成网络的由文字生成图片的方法,其特征在于:在步骤二中,预处理具体包括:
构建词典,在词典中添加NULL;
构建文本向量,采用长度为18的一维向量,单词数不足18的句子在句末补NULL,单词数大于18的句子将随机进行选取18个单词,再将每个单词映射至其在词典中的下标;
预处理图片,采用随机翻转、裁剪,然后通过缩放得到64x64、128x128以及256x256的图片。
5.根据权利要求1所述的一种基于双向架构对抗生成网络的由文字生成图片的方法,其特征在于:在步骤三中,采用Attngan中文本编码部分的预训练模型作为文本编码器,其采用的是RNN网络,用公式表达为:
w,s=RNN(Text)
其中w为单词编码,是一个D×L的矩阵,其中D代表维度,L代表单词个数即句子长度;s为句子编码,是一个长度为D的一维向量。
6.根据权利要求1所述的一种基于双向架构对抗...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。