一种文本生成图像方法及装置制造方法及图纸

技术编号:20725160 阅读:16 留言:0更新日期:2019-03-30 17:44
本发明专利技术公开了一种文本生成图像方法及装置,其中,文本生成图像方法包括以下步骤:步骤1,对描述图像的自然语言文本进行编码,得到文本语义嵌入表示;步骤2,将步骤1得到的文本语义嵌入表示与随机噪声进行混合,采用循环神经网络转码器读取文本语义嵌入表示、随机噪声以及循环神经网络转码器上一步的隐态,输出每步的对象隐编码;步骤3,对步骤2输出的每步对象隐编码进行解码生成步图像,最后融合所有步图像得到生成图像;步骤4,将生成图像和真实图像进行对抗训练。本发明专利技术生成器根据对象隐编码,通过多步转码、解码生成图像前景与背景像素集合,并进行融合,生成高质量图像,降低了直接生成图像的训练难度。

【技术实现步骤摘要】
一种文本生成图像方法及装置
本专利技术涉及深度学习生成模型
,具体涉及基于文本描述的图像生成方法及装置。
技术介绍
从自然语言文本描述生成照片级逼真的图像是一个重要的问题,并具有广泛的应用,例如照片编辑,计算机辅助设计等。有很多方法可以跨图像模态与文本模态学习生成模型。其中一个研究方向是学习以图像为条件的文本生成模型,称为“图像字幕生成”。该类模型目前较为主流的处理流程是,首先抽取图像特征并使用编码器进行编码,之后利用解码器生成非结构化文本。最近,生成对抗网络(GenerativeAdversarialNetwork,简称GAN)在生成真实图像方面取得了较好的效果。其变体conditional-GAN(简称cGAN)能够根据给定的文本描述作为条件,生成与文本含义相关的图像。然而由于GAN本身训练的不稳定性,从文本描述生成高维逼真图像仍是非常困难的,简单的增加上采样层只会导致训练的不稳定以及生成无意义的图像。要解决根据文本描述生成对应图像的问题,通常要解决两个子问题:1、如何学习一个能够捕捉文本描述中的语义以及描述中的视觉细节的文本嵌入表示方法(文本编码器);2、如何结合1中的文本语义嵌入表示,通过GAN网络生成一幅逼真的图像(图像生成器),使人类误认为是真实的。传统的条件生成对抗网络模型,一般首先从文本语义嵌入(联合随机噪声)解码,之后直接生成高维图像,并通过判别器进行对抗训练。但这种方式一定程度上增加了神经网络的学习难度,并且从文本语义嵌入直接得到图像,将导致图像模糊,同时难以覆盖文本的有效信息,这种缺陷在生成多对象图像(图像中包含多个实体)时会尤为明显。
技术实现思路
本专利技术所要解决的技术问题是针对上述现有技术存在的不足,而提供了一种基于条件生成对抗网络和循环神经网络的根据文本描述生成图像的方法,该方法能够解决在文本描述中存在多个实体,并具有较为复杂关系情况下的图像生成问题。为解决上述技术问题,本专利技术采用的技术方案为:一种文本生成图像方法,其特征在于,包括以下步骤:步骤1,对描述图像的自然语言文本进行编码,得到文本语义嵌入表示;步骤2,将步骤1得到的文本语义嵌入表示与随机噪声进行混合,采用循环神经网络转码器读取文本语义嵌入表示、随机噪声以及循环神经网络转码器上一步的隐态,输出每步的对象隐编码;步骤3,对步骤2输出的每步对象隐编码进行解码生成步图像,最后融合所有步图像得到生成图像;步骤4,将生成图像和真实图像进行对抗训练。所述步骤2中,每步输出的对象隐编码在生成过程中,通过注意力机制,在每步对文本语义嵌入表示的不同部分赋予不同的权重。所述步骤2中,所述循环神经网络转码器采用长短时记忆网络;所述步骤3中,采用反卷积神经网络对步骤2输出的每步对象隐编码进行解码生成步图像。所述步骤4的对抗训练方法为:对生成图像和真实图像进行下采样处理得到图形隐表示;将经过下采样后得到的图像隐表示和文本语义嵌入表示直接连接,通过全连接神经网络得到输出。所述下采样处理采用卷积神经网络,输入生成图像与真实图像,以及其对应的文本条件,输出对图像真实程度和与文本匹配程度的评分。所述步骤1中,对描述图像的自然语言文本进行编码的方法为:对自然语言文本进行特征提取,得到的长度为d的词序列p=(w1,w2,…,wd),其中每个单词wi采用预训练的词向量进行表示,i=1~d;由得到的词向量对自然语言文本进行编码。所述提取的自然语言文本的特征包括高层语义特征以及文本描述的视觉特征,其中高层语义特征包括实体和关系,视觉特征包括颜色和尺寸。所述步骤2中,文本语义嵌入表示和高斯噪声z的混合方式,采用直接连接的方式,即所述步骤3中,融合所有步图像得到生成图像的融合采用像素值取平均或将步图像输入卷积神经网络得到最后的生成图像。一种文本生成图像装置,其特征在于,包括:一文本编码器,对输入的描述图像的自然语言文本进行编码,得到文本语义嵌入表示;一生成器,包括循环神经网络转码器、图像解码器以及图像融合器,所述循环神经网络转码器用于读取文本语义嵌入和转码器上一步的隐态,输出每步的对象隐编码;所述图像解码器对输入的每步对象隐编码进行解码生成步图像;所述图像融合器对所述图像解码器生产的所有步图像进行图像融合得到生成图像;一判别器,由下采样网络构成,对输入的生成图像和真实图像,在隐层联合文本语义嵌入表示进行对抗训练。本专利技术构建了一种基于cGAN和RNN(循环神经网络)的根据文本描述生成图像的模型,采用RNN从文本语义嵌入和上一步隐态生成下一步的对象(图像元素如实体、背景)编码,将逐步生成的对象编码通过上采样层学习得到图像像素集合,最后融合所有图像像素集合得到一幅完整图像作为输出图像通入到判别器进行对抗训练。与现有相比,本专利技术具有以下有益效果:本专利技术不需要<文本,图像>对以外的额外监督数据,例如带类别标记的图像掩模;循环神经网络转码器可以根据文本和已生成图像自动学习下一步要生成的对象隐编码;生成器根据对象隐编码,通过多步转码、解码生成图像前景与背景像素集合,并进行融合,生成高质量图像,降低了直接生成图像的训练难度;能够捕捉包含多个对象、关系复杂的文本描述中更多的语义信息从而生成内容完整、逻辑合理的高质量图像。附图说明图1是本专利技术公开的基于条件生成对抗网络和循环神经网络的文本生成图像方法的训练流程图。具体实施方式下面结合附图和具体实施例,进一步阐明本专利技术,应理解这些实例仅用于说明本专利技术而不用于限制本专利技术的范围。在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。一种基于条件生成对抗网络和循环神经网络的文本生成图像方法,如图1所示,包括下列步骤:步骤1,构建文本编码器,输入自然语言文本序列,输出文本的嵌入表示。自然语言文本序列是通过分词技术得到的长度为d的词序列p=(w1,w2,…,wd),其中每个单词采用预训练的词向量进行表示。如:输入自然语言“绿色的草坪上有孩子在放风筝”,通过分词技术初步得到词序列['绿色','的','草坪','上','有','孩子','在','放风筝'],去掉停用词得到最后的词序列P=['绿色','草坪','上','孩子','放风筝'],d=5。不同的输入d不同。根据最终得到的词序列P,输出文本的嵌入表示。文本的嵌入表示可用隐空间的稠向量表示。文本编码器的目标是提取自然语言文本中的高层语义特征如实体和关系等,及对视觉特征如颜色尺寸的描述等。文本编码器由双向长短时记忆神经网络(Bi-LSTM)充当,输入文本序列,对所有时刻输出的隐态取时序平均作为最后的文本语义嵌入,即t为文本序列,hi是时刻i两个方向连接后的隐态,L是Bi-LSTM长度。这里给出的仅是一种优选方式,根据实际情况也可以采用符合编码目标的其它合适方法进行编码。另外也可以通过对文本编码器进行预训练来加快整个网络的训练速度甚至进一步提高网络性能,但应注意本模型并不依赖于对文本编码器的预训练;步骤2,构建条件生成对抗网络,生成器由循环神经网络转码器和图像解码器构成,判别器由下采样网络构成。转码器由长短时记忆神经网络(LSTM)充当,输入文本语义嵌入和上一步的隐态,输出每步的对象隐编码,在隐编码生成过程中,通过注意力机制(A本文档来自技高网
...

【技术保护点】
1.一种文本生成图像方法,其特征在于,包括以下步骤:步骤1,对描述图像的自然语言文本进行编码,得到文本语义嵌入表示;步骤2,将步骤1得到的文本语义嵌入表示与随机噪声进行混合,采用循环神经网络转码器读取文本语义嵌入表示、随机噪声以及循环神经网络转码器上一步的隐态,输出每步的对象隐编码;步骤3,对步骤2输出的每步对象隐编码进行解码生成步图像,最后融合所有步图像得到生成图像;步骤4,将生成图像和真实图像进行对抗训练。

【技术特征摘要】
1.一种文本生成图像方法,其特征在于,包括以下步骤:步骤1,对描述图像的自然语言文本进行编码,得到文本语义嵌入表示;步骤2,将步骤1得到的文本语义嵌入表示与随机噪声进行混合,采用循环神经网络转码器读取文本语义嵌入表示、随机噪声以及循环神经网络转码器上一步的隐态,输出每步的对象隐编码;步骤3,对步骤2输出的每步对象隐编码进行解码生成步图像,最后融合所有步图像得到生成图像;步骤4,将生成图像和真实图像进行对抗训练。2.根据权利要求1所述的文本生成图像方法,其特征在于,所述步骤2中,每步输出的对象隐编码在生成过程中,通过注意力机制,在每步对文本语义嵌入表示的不同部分赋予不同的权重。3.根据权利要求1或2所述的文本生成图像方法,其特征在于,所述步骤2中,所述循环神经网络转码器采用长短时记忆网络;所述步骤3中,采用反卷积神经网络对步骤2输出的每步对象隐编码进行解码生成步图像。4.根据权利要求1所述的文本生成图像方法,其特征在于,所述步骤4的对抗训练方法为:对生成图像和真实图像进行下采样处理得到图形隐表示;将经过下采样后得到的图像隐表示和文本语义嵌入表示直接连接,通过全连接神经网络得到输出。5.根据权利要求4所述的文本生成图像方法,其特征在于,所述下采样处理采用卷积神经网络,输入生成图像与真实图像,以及其对应的文本条件,输出对图像真实程度和与文本匹配程度的评分。6.根据权利要求1所述的文本生成图像方法...

【专利技术属性】
技术研发人员:周德宇胡名起蒋明敏
申请(专利权)人:南京德磐信息科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1