【技术实现步骤摘要】
一种基于StackGAN网络的文本生成图像方法
本专利技术属于计算机视觉与自然语言处理
,具体涉及一种基于StackGAN网络的文本生成图像方法。
技术介绍
随着互联网技术的迅猛发展,数以万计的图像信息丰富了人们的生活。与此同时,人们对图像信息的要求也越来越高,含有特定意义的图像还是不能满足人们的需求,为了让计算机能根据人们的需求自动生成有意义的图像,文本生成图像任务应运而生。文本生成图像是结合计算机视觉与自然语言处理两个领域的综合性任务,近年来,由于深度学习等技术的迅速发展,在计算机视觉、自然语言处理等方面取得了长足的进步,2014年6月,生成式对抗网络的诞生为文本生成图像任务提供了可能。2016年Reed等人第一次将生成式对抗网络用于文本生成图像,使得文本生成图像任务有了突破性进展,其在游戏动漫设计、刑侦破案、绘图插画、广告设计、数据增强等领域具有广泛的应用前景。目前,文本生成图像方法基本都是基于对抗网络训练的,传统的文本生成图像网络模型有GAWWN模型、GAN-INT-CLS模型等。现有的比较有影 ...
【技术保护点】
1.一种基于StackGAN网络的文本生成图像方法,其特征在于,具体按照以下步骤实施:/n步骤1,收集整理文本图像数据集;/n步骤2,将收集好的文本图像数据集分成训练集和测试集;/n步骤3,构建StackGAN网络文本生成图像模型,该网络模型分为两个阶段进行训练,分别为低分辨率图像生成阶段和高分辨率图像生成阶段;低分辨率图像生成阶段包括一个生成器和一个判别器,高分辨率图像生成阶段包括一个生成器和两个判别器;/n步骤4,将训练集图像对应的文本描述与随机噪声向量作为StackGAN网络模型第一阶段即低分辨率图像生成阶段的输入,输出64×64低分辨率图像,然后送入到第一阶段的判别 ...
【技术特征摘要】
1.一种基于StackGAN网络的文本生成图像方法,其特征在于,具体按照以下步骤实施:
步骤1,收集整理文本图像数据集;
步骤2,将收集好的文本图像数据集分成训练集和测试集;
步骤3,构建StackGAN网络文本生成图像模型,该网络模型分为两个阶段进行训练,分别为低分辨率图像生成阶段和高分辨率图像生成阶段;低分辨率图像生成阶段包括一个生成器和一个判别器,高分辨率图像生成阶段包括一个生成器和两个判别器;
步骤4,将训练集图像对应的文本描述与随机噪声向量作为StackGAN网络模型第一阶段即低分辨率图像生成阶段的输入,输出64×64低分辨率图像,然后送入到第一阶段的判别器中进行判别;
步骤5,将步骤4得到的64×64低分辨率图像进行预处理;
步骤6,将步骤5得到的预处理图像即最终的边缘锐化图像与训练集图像文本描述作为StackGAN网络模型的第二阶段即高分辨率图像生成阶段生成器的输入,然后再结合图像的类别与重构信息,在第二阶段模型中进行训练,输出256×256高分辨率图像,然后送入到第二阶段的判别器中进行判别。
2.根据权利要求1所述的一种基于StackGAN网络的文本生成图像方法,其特征在于,所述步骤4中,具体过程如下:
步骤4.1,将训练集图像文本描述使用文本编码器进行编码,将文本描述表示为特征向量;
步骤4.2,采用条件增强模型产生一个附加条件变量c;具体是将文本特征向量通过全连接层得到均值向量和协方差矩阵然后从单位高斯分布N(0,1)中随机采样ε,得到最终条件变量c的表达式,如式(1)所示:
其中,c表示条件变量,表示文本特征向量,表示均值向量,表示协方差矩阵,⊙表示矩阵元素对应相乘;
步骤4.3,将步骤4.2得到的条件变量c与随机噪声向量z进行拼接,作为第一阶段生成器的输入,然后通过全连接及上采样操作生成64×64像素的图像;训练中第一阶段生成器的损失函数如式(2)所示;
式中,G1和D1分别为第一阶段的生成器和判别器,LG1表示第一阶段生成器的损失函数,E表示期望,z表示随机噪声向量,t表示文本描述,pz表示随机噪声分布,pdata表示真实数据分布,LkL表示正则化函数,λ是正则化参数,设置为1;
步骤4.4,将第一阶段生成的64×64图像结合64×64真实图像和文本特征向量输入到第一阶段的判别器中进行判别,如果判别器输出为1,则表示判别器输入的是和文本匹配的真实图像;如果判别器输出为0,则表示判别器输入的是生成的虚假图像或是和文本不匹配的错误图像;第一阶段判别器的损失函数,如式(4)所示;
式中,LD1表示第一阶段判别器的损失函数,I1表示第一阶段64×64真实图像。
3.根据权利要求2所述的一种基于StackGAN网络的文本生成图像方法,其特征在于,所述步骤4.3中,正则化函数,如式(3)所示;
式中,LkL表示正则化函数,DkL表示标准高斯分布和条件高斯分布之间的KL散度,表示独立高斯分布,N(0,1)表示标准正态分布。
4.根据权利要求1所述的一种基于StackGAN网络的文本生成图像方法,其特征在于,所述步骤5中,预处理过程包括图像灰度化、边缘检测及边缘锐化,首先对图像进行灰度化处理,其次对灰度化图像进行边缘检测,最后对...
【专利技术属性】
技术研发人员:李云红,朱绵云,聂梦轩,穆兴,贾凯莉,姚兰,罗雪敏,
申请(专利权)人:西安工程大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。