一种基于混和网络模型的文本到图像的生成方法技术

技术编号:23240110 阅读:26 留言:0更新日期:2020-02-04 19:05
本发明专利技术公开了一种基于混和网络模型的文本到图像的生成方法,通过对文本到图像的映射进行前向训练、对文本到图像生成模型中对生成器和判别器进行前向训练、对判别器输入三种类型的输入对判别器进行训练、对文本到图像的生成对抗模型进行前向测试训练、对该模型进行训练得到模型函数损失信息、使用图像评估模块对图像的质量进行评价;本发明专利技术的生成图像质量明显高于传统的GAN的文本生成的图像,从而使得应用价值更高。本发明专利技术克服了现有的基于生成对抗网络的文本到图像的模型研究的不足之处,能更好的适用于文本到图像的生成。通过本发明专利技术,能够实现高质量清晰图像的输出,并通过少量的训练数据就能得到泛化的效果。

A text to image generation method based on hybrid network model

【技术实现步骤摘要】
一种基于混和网络模型的文本到图像的生成方法
本专利技术属于图像处理
,涉及一种基于混和网络模型的文本到图像的生成方法。
技术介绍
随着人工智能的快速发展,从文本生成图像引起了人们的极大兴趣。近年来,递归神经网络体系结构被用来学习文本特征表示。深度卷积对抗网络则可以生成特定类型的高质量清晰图像,如人脸,房间等特定图像。传统的基于生成对抗网络的文本生成图像模型,判别器中使用卷积网络对图像的特征进行提取,使用递归神经网络对语句的序列进行特征的提取,但传统的用于图像特征提取的卷积网络需要非常多的图像进行训练,因此有很大的局限性,而胶囊网络使用少得多的训练数据就能泛化。同时,传统的卷积网络不能很好地应对图像模糊性,而胶囊网络却可以。除此之外在传统的基于生成对抗网络的文本生成图像的模型中,传统的用于图像特征提取的卷积层网络后面都连接着全连接层,而全连接层几乎占据了网络中很大一部分参数量。这样在模型训练过程中,模型的训练速度会比较慢,过拟合会比较严重。基于以上,有必要专利技术一种全新的卷积网络提取图像特征方法,以解决传统卷积网络对图像特本文档来自技高网...

【技术保护点】
1.一种基于混和网络模型的文本到图像的生成方法,包括步骤:/n步骤S1:对基于生成对抗网络的文本-图像对抗模型的相关数据进行加载;/n步骤S2:实现文本-图像对抗模型的定义,包括真实图像的定义、错误图像的定义、真实标题的定义、错误标题的定义以及噪声变量的定义;/n步骤S3:在文本-图像对抗模型模型中,对文本-图像的映射进行前向训练;/n步骤S4:对文本-图像对抗模型中的生成器进行前向训练,使用递归神经网络对正确标题进行编码,在编码后的向量中加入噪声来对生成器进行训练,得到训练后的生成器和伪造图像;/n步骤S5:对文本-图像对抗模型的判别器输入三种类型的输入(这里使用的是具有配对意识的判别器,它...

【技术特征摘要】
1.一种基于混和网络模型的文本到图像的生成方法,包括步骤:
步骤S1:对基于生成对抗网络的文本-图像对抗模型的相关数据进行加载;
步骤S2:实现文本-图像对抗模型的定义,包括真实图像的定义、错误图像的定义、真实标题的定义、错误标题的定义以及噪声变量的定义;
步骤S3:在文本-图像对抗模型模型中,对文本-图像的映射进行前向训练;
步骤S4:对文本-图像对抗模型中的生成器进行前向训练,使用递归神经网络对正确标题进行编码,在编码后的向量中加入噪声来对生成器进行训练,得到训练后的生成器和伪造图像;
步骤S5:对文本-图像对抗模型的判别器输入三种类型的输入(这里使用的是具有配对意识的判别器,它是对标准的文本条件式DCGAN框架中的判别器进行了改进,判别器除了判别输出图像的真假外,还需要分辨出失败的生成内容是属于生成图像不真实还是生成图像不匹配):伪造图像向量和真实标题向量、真实图像向量和伪造标题向量以及真实图像向量和真实标题向量,来对判别器进行训练来得到训练后的判别器;
步骤S6:对文本-图像的对抗模型进行前向测试训练,用递归神经网络对真实标题进行编码,在编码向量中加入随机噪声来对生成器进行测试,以了解生成器是否能如期望的那样输出理想的结果;
步骤S7:参数定义,具体包括学习率、学习衰减率以及生成器和判别器的优化器的定义;
步骤S8:开始对文本-图像的对抗模型进行训练,下载最近检查点,获取生成种子、噪声和句子的下标,获取匹配的文本、获取真实的图像、获取错误的标题、获取错误的图像和获取噪声后对文本-图像的映射进行更新,并更新判别器和生成器,最后得出轮数和损失函数信息;
步骤S9:保存训练好的文本-图像的对抗模型,对训练好的文本-图像的对抗模型生成的图像的图像质量进行评估。


2.根据权利要求1所述的一种基于混和网络模型的文本到图像的生成方法,其特征在于,步骤S1中,加载文本-图像对抗模型的相关数据包括:加载标题集,将处理后的标题集存入相应的字典中;建立相关的词汇表,其中记载了相应词汇的数量;在列表中存储相关标题的下标;对存储标题下标的列表进行随机检查;加载相关的图像并对图像进行变形;获取相关的图像训练集和图像测试集的图像数量、标题训练集和标题测试集的标题数量;对词汇表、图像训练集、图像测试集、标题训练数、标题测试数、每幅图像对应的标题数、测试图像的数量、训练图像的数量、训练下标集和测试下标集以二进制形式进行保存。


3.根据权利要求1所述的一种基于混和网络模型的文本到图像的生成方法,其特征在于,所述步骤S2中,在对正确图像、错误图像、正确标题和错误标题中的定义中,具体包括对真假图像名称、类型和尺寸的定义以及对真假标题的名称、类型和尺寸的定义。


4.根据权利要求1所述的一种基于混和网络模型的文本到图像的生成方法,其特征在于,所述步骤S3中,在对文本-图像的映射进行前向训练中,通过胶囊网络对真假图像编码,具体过程如下:
(1)将真图像或假图像以向量组形式首先输入到胶囊网络的输入层;
(2)输入层对图像简单处理后,依次输入到两个胶囊层,利用两个胶囊层对图像提取高阶特征后,通过批量归一化层对其做归一化处理;后通过一个胶囊层和一个批量归一化层再次对图像做特征提取和归一化处理,后面通过一个同样的胶囊层和批量归一化层对图像做相同的处理;再经过一个网络层,该网络层将一个图像张量压缩成一个向量;最后经过全连接层,全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来,输出最后的总体特征。


5.根据权利要求1所述的一种基于混和网络模型的文本到图像的生成方法,其特征在所述步骤S3中,在对文本-图像的映射进行前向训练中,利用递归神经网络对标题提取特征向量,按照以下步骤进行:
(1)将标题序列输入到Embedding层(Embedding层是“嵌入”的意思,用于将词语从语义空间映射到向量空间且尽可能保持样本在语义空间的关系,即语义相近的词语映射后的向量距离尽可能地接近,反之尽可能远)进行处理,最后输出一个三维张量,包含批量大小和嵌入维度信息;
(2)将Embedding输入层输出的信息输入到递归神经网络的动态循环网络层(DynamicRNN层),经过处理后得到最后的网络输出张量;
(3)计算递归神经网络的损失函...

【专利技术属性】
技术研发人员:张玲李钢黄晓琪杨子固刘剑超王莉
申请(专利权)人:太原理工大学
类型:发明
国别省市:山西;14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1