一种文本生成图像方法及装置制造方法及图纸

技术编号：20725160 阅读：16 留言：0更新日期：2019-03-30 17:44

本发明专利技术公开了一种文本生成图像方法及装置，其中，文本生成图像方法包括以下步骤：步骤1，对描述图像的自然语言文本进行编码，得到文本语义嵌入表示；步骤2，将步骤1得到的文本语义嵌入表示与随机噪声进行混合，采用循环神经网络转码器读取文本语义嵌入表示、随机噪声以及循环神经网络转码器上一步的隐态，输出每步的对象隐编码；步骤3，对步骤2输出的每步对象隐编码进行解码生成步图像，最后融合所有步图像得到生成图像；步骤4，将生成图像和真实图像进行对抗训练。本发明专利技术生成器根据对象隐编码，通过多步转码、解码生成图像前景与背景像素集合，并进行融合，生成高质量图像，降低了直接生成图像的训练难度。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本生成图像方法及装置
本专利技术涉及深度学习生成模型
，具体涉及基于文本描述的图像生成方法及装置。
技术介绍
从自然语言文本描述生成照片级逼真的图像是一个重要的问题，并具有广泛的应用，例如照片编辑，计算机辅助设计等。有很多方法可以跨图像模态与文本模态学习生成模型。其中一个研究方向是学习以图像为条件的文本生成模型，称为“图像字幕生成”。该类模型目前较为主流的处理流程是，首先抽取图像特征并使用编码器进行编码，之后利用解码器生成非结构化文本。最近，生成对抗网络(GenerativeAdversarialNetwork，简称GAN)在生成真实图像方面取得了较好的效果。其变体conditional-GAN(简称cGAN)能够根据给定的文本描述作为条件，生成与文本含义相关的图像。然而由于GAN本身训练的不稳定性，从文本描述生成高维逼真图像仍是非常困难的，简单的增加上采样层只会导致训练的不稳定以及生成无意义的图像。要解决根据文本描述生成对应图像的问题，通常要解决两个子问题：1、如何学习一个能够捕捉文本描述中的语义以及描述中的视觉细节的文本嵌入表示方法(文本编码器)；2、如何结合1中的文本语义嵌入表示，通过GAN网络生成一幅逼真的图像(图像生成器)，使人类误认为是真实的。传统的条件生成对抗网络模型，一般首先从文本语义嵌入(联合随机噪声)解码，之后直接生成高维图像，并通过判别器进行对抗训练。但这种方式一定程度上增加了神经网络的学习难度，并且从文本语义嵌入直接得到图像，将导致图像模糊，同时难以覆盖文本的有效信息，这种缺陷在生成多对象图像(图像中包含多个实体)时会尤...

【技术保护点】
1.一种文本生成图像方法，其特征在于，包括以下步骤：步骤1，对描述图像的自然语言文本进行编码，得到文本语义嵌入表示；步骤2，将步骤1得到的文本语义嵌入表示与随机噪声进行混合，采用循环神经网络转码器读取文本语义嵌入表示、随机噪声以及循环神经网络转码器上一步的隐态，输出每步的对象隐编码；步骤3，对步骤2输出的每步对象隐编码进行解码生成步图像，最后融合所有步图像得到生成图像；步骤4，将生成图像和真实图像进行对抗训练。

【技术特征摘要】
1.一种文本生成图像方法，其特征在于，包括以下步骤：步骤1，对描述图像的自然语言文本进行编码，得到文本语义嵌入表示；步骤2，将步骤1得到的文本语义嵌入表示与随机噪声进行混合，采用循环神经网络转码器读取文本语义嵌入表示、随机噪声以及循环神经网络转码器上一步的隐态，输出每步的对象隐编码；步骤3，对步骤2输出的每步对象隐编码进行解码生成步图像，最后融合所有步图像得到生成图像；步骤4，将生成图像和真实图像进行对抗训练。2.根据权利要求1所述的文本生成图像方法，其特征在于，所述步骤2中，每步输出的对象隐编码在生成过程中，通过注意力机制，在每步对文本语义嵌入表示的不同部分赋予不同的权重。3.根据权利要求1或2所述的文本生成图像方法，其特征在于，所述步骤2中，所述循环神经网络转码器采用长短时记忆网络；所述步骤3中，采用反卷积神经网络对步骤2输出的每步对象隐编码进行解码生成步图像。4.根据权利要求1所述的文本生成图像方法，其特征在于，所述步骤4的对抗训练方法为：对生成图像和真实图像进行下采样处理得到图形隐表示；将经过下采样后得到的图像隐表示和文本语义嵌入表示直接连接，通过全连接神经网络得到输出。5.根据权利要求4所述的文本生成图像方法，其特征在于，所述下采样处理采用卷积神经网络，输入生成图像与真实图像，以及其对应的文本条件，输出对图像真实程度和与文本匹配程度的评分。6.根据权利要求1所述的文本生成图像方法...

【专利技术属性】
技术研发人员：周德宇，胡名起，蒋明敏，
申请(专利权)人：南京德磐信息科技有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人