【技术实现步骤摘要】
一种基于生成语义分割图的文本改写图片方法
本专利技术涉及计算机应用技术、图像处理领域,更具体地,涉及一种基于生成语义分割图的文本改写图片方法。
技术介绍
近年来,互联网技术越来越成熟,人们已经习惯在网上购买自己想要的商品,其中衣服就是人们购买最多的一类商品。足不出户就可以买到自己心仪的衣服,这给大家的生活带来了巨大的便利。但是不能亲自试穿却成了一个很大的问题,因此如果能够用一段描述衣服样子的文本去自动修改一张人物图片的衣服,使得生成的图片的衣服刚好符合文本的描述并且该衣服贴合于原图片的人物就显得十分重要而且有意义。文本改写图片任务就这样孕育而生,即给定一张人物图片以及一段文本描述,生成一张新的图片使得该图片的人物依旧与输入图片保持一致并且该人物所穿的衣服与文本描述的内容保持一致。文本改写图片任务其实就是一个有条件的图片生成任务,通过文本这个强条件去控制图片的生成。目前,图片生成任务使用频繁的网络就是生成对抗网络。该网络设计生成器和判别器(均为神经网络),生成器的目的是生成的图片要让判别器无法判别其是真是假,判别器的目 ...
【技术保护点】
1.一种基于生成语义分割图的文本改写图片方法,其特征在于,包括以下步骤:/nS1:建立生成输入图片的语义分割图模型G,语义分割图的特征抽取器T以及生成文本语义信息的双向编码器LSTM网络;/nS2:构建resnet1网络,将S1中生成的语义分割特征和文本语义特征输入该网络中通过GAN训练方法生成修改图片的语义分割图P;/nS3:构建resnet2网络,将S2中生成的语义分割图P和S1中生成的文本语义特征输入该网络中通过GAN训练方法生成修改图片。/n
【技术特征摘要】
1.一种基于生成语义分割图的文本改写图片方法,其特征在于,包括以下步骤:
S1:建立生成输入图片的语义分割图模型G,语义分割图的特征抽取器T以及生成文本语义信息的双向编码器LSTM网络;
S2:构建resnet1网络,将S1中生成的语义分割特征和文本语义特征输入该网络中通过GAN训练方法生成修改图片的语义分割图P;
S3:构建resnet2网络,将S2中生成的语义分割图P和S1中生成的文本语义特征输入该网络中通过GAN训练方法生成修改图片。
2.根据权利要求1所述的基于生成语义分割图的文本改写图片方法,其特征在于,所述步骤S1的具体过程是:
S11:预定义20个标签,包括头发,脸部,上衣,其目标就是对输入图片的每个像素点进行分类,若输入图片用矩阵表示为[height,width,channel],则输出图片表示为[height,width];
S12:对身体部分进行缩放使其变得模糊,经过这样的特征抽取后将它们的表示拼接在一起构成一个[height,width,3]的语义分割特征矩阵;
S13:输入文本首先通过word2vec工具将每个词用一个低维,稠密的实数向量进行表示,于是整个句子可以表示成X=[x1,…,xt,…,xn],其中n为句子长度,向量矩阵X的维度为300维,为了让模型学习句子的每个词上下文信息,用一个双向LSTM去学习句子的上下文信息,设每一个词表示一个时间步t,每个LSTM单元的输入为当前t时刻的词向量xt以及t-1时刻的LSTM细胞隐层输出hft-1,根据此可以得到前向LSTM的表示为Hf=[hf1,…,hft,…hfn],同理,后向LSTM的表示为Hb=[hb1,…,hbt,…hbn],最后将hfn与hb1拼接在一起作为文本的语义特征表示。
3.根据权利要求2所述的基于生成语义分割图的文本改写图片方法,其特征在于,所述步骤S2的具体过程是:
S21:在S12中获得了输入图片语义分割图的头部,脸部和身体部分的特征,为了将其与S13获得的文本语义特征进行联合学习,需要将它们进行拼接,由于图片的特征是[height,width,3],而文本的特征是[hfn;hb1],在拼接之前需要对文本的特征进行扩充,使其特征维度变成[height,width,hfn;hb1],然后拼接之后总体特征维度是[height,width,3+hfn+hb1];
S22:本阶段需要通过S21得到的语义分割图特征和文本语义特征生成新的语义分割图,这个任务与pix2pix模型很相近,因此,沿用其中的resnet网络作为生成器,称之为resnet1网络,该网络结构类似于编码器解码器结构,主要包含两个部分,特征提取部分即编码器,上采样部分即解码器,特征提取部分使用卷积操作和池化操作对输入的语义分割图特征以及文本语义特征进行特征提取,而上采样部分使用转置卷积和特征提取部分对应的通道数相...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。