一种AI智能文本生成图像的方法技术

技术编号:37075132 阅读:32 留言:0更新日期:2023-03-29 19:51
本发明专利技术涉及图像生成技术领域,具体涉及一种AI智能文本生成图像的方法,一种AI智能文本生成图像的方法,包括以下步骤:S1、建立模型,预备一个encoder、一个decoder和一个离散码本;S2、对于每一个样本x,先得到e,通过encoder将图像编码到隐变量空间Z,即z

【技术实现步骤摘要】
一种AI智能文本生成图像的方法


[0001]本专利技术涉及图像生成
,具体涉及一种AI智能文本生成图像的方法。

技术介绍

[0002]从自然语言文本描述生成照片级逼真的图像是一个重要的问题,并具有广泛的应用,例如照片编辑,计算机辅助设计等。有很多方法可以跨图像模态与文本模态学习生成模型。其中一个研究方向是学习以图像为条件的文本生成模型,称为“图像字幕生成”。该类模型目前较为主流的处理流程是,首先抽取图像特征并使用编码器进行编码,之后利用解码器生成非结构化文本。最近,生成对抗网络(Generat iveAdversar ia l Network,简称GAN)在生成真实图像方面取得了较好的效果。其变体cond it iona l

GAN(简称cGAN)能够根据给定的文本描述作为条件,生成与文本含义相关的图像。然而由于GAN本身训练的不稳定性,从文本描述生成高维逼真图像仍是非常困难的,简单的增加上采样层只会导致训练的不稳定以及生成无意义的图像
[0003]经检索,申请号:202010104619.2,公开了一种基于文本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种AI智能文本生成图像的方法,其特征在于,包括以下步骤:S1、建立模型,预备一个encoder、一个decoder和一个离散码本;S2、对于每一个样本x,先得到e,通过encoder将图像编码到隐变量空间Z,即z
e
(x)=z,encoder得到z;S3、根据离散码本进行替换,利用重建误差相对于的梯度来作为encoder的输出的梯度,找到z
i,j
对应的码字e
k
,并一一替换,用得到的e代替z,即:S4、计算encoder的输出和对应的量化得到的embedding向量的误差,然后输入到decoder中,进行图像重建;S5、让PixelCNN去学习预测e,通过PixelCNN在高斯空间中采样一个离散编码样本,影响Decoder部分的输出,提高中间表征的稳定性和多样化,用PixelCNN自回归编码得到一个e,然后然后输入到decoder中,得到生成的图像。2.根据权利要求1所述的一种AI智能文本生成图像的方法,其特征在于:所述S1中,离散码本中码字的数量是预设的超参数。3.根据权利要求1所述的一种AI智能文本生成图像的方法,其特征在于,所述S1中,模型的损失函数由三项构成:4.根据权利要求1所述的一种AI智能文本生成图像的方法,其特征在于:所述S1中,模型还包括:后验分布...

【专利技术属性】
技术研发人员:罗鑫凯王新勇杨笑丁振孙丕超王佳付帅
申请(专利权)人:中译文娱科技青岛有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1