一种文本生成图像的方法、模型训练方法及装置制造方法及图纸

技术编号：42564022 阅读：24 留言：0更新日期：2024-08-29 00:32

一种文本生成图像的方法、模型训练方法及装置，涉及人工智能领域，用于提高处理效率，提升生成图像的质量。本申请设计一种图像Token解码器，在预测图像的Token序列时，采用划分L型区块的方式，按照L型区块邻接的方式，按照顺序迭代解码各个L型区块包括的Token序列。由于下一个预测的L型区块与已预测的Token序列在空间上具有相关性，从而可以提高生成的图像质量。另外，无需每次都预测图像的所有图像块的Token，从而可以提高预测的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能领域，特别涉及一种文本生成图像的方法、模型训练方法及装置。

技术介绍

1、以文生图(即文本生成图像)是一种根据给定的文本描述直接生成对应的图像的技术。近年来，互联网上的图文多模态数据呈指数级增长，为以文生图模型的训练提供了大量的训练语料。针对神经网络架构设计的相关研究取得了显著突破，为更大规模的以文生图模型的训练提供了模型架构基础。在过去几年，以文生图模型所生成的图像在保真性、多样性、以及图文相关性等方面均得到了显著提升。以文生图技术在辅助视觉设计的相关领域达到了一定的实用水平，展现出了良好的应用前景，受到了学术界和工业界的广泛关注。

2、目前的以文生图技术，基于文本信息采用非自回归方式来解码图像的令牌(token)序列，每一步解码过程中并行的预测图像的所有token序列，按照一定比例保留被预测的token序列中概率最高的token序列，将剩余的token序列替换为掩码token序列，继续迭代预测，通过多次迭代预测直至解码所有的token序列，然后将token序列解码为图像。该方法，每次迭代预测所有的tok...

【技术保护点】

1.一种文本生成图像的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述图像Token解码器包括估计网络和图像Token生成网络；所述通过图像Token解码器，根据所述文本数据的Token序列以及所述特征向量，经过N次迭代预测待生成图像的Token序列，包括：

3.如权利要求2所述的方法，其特征在于，所述估计网络的网络参数是在训练过程中，通过所述估计网络估计训练样本集中文本样本的特征向量的高斯噪声所满足的高斯分布参数与估计所述文本样本对应的图像样本的特征向量的高斯噪声所满足的高斯分布参数之间的损失调整得到的。

4.如权利要求1-3任...

【技术特征摘要】

1.一种文本生成图像的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述图像token解码器包括估计网络和图像token生成网络；所述通过图像token解码器，根据所述文本数据的token序列以及所述特征向量，经过n次迭代预测待生成图像的token序列，包括：

4.如权利要求1-3任一项所述的方法，其特征在于，在所述n次迭代中的第i次迭代，预测第i个l型区块的token序列，包括：

5.如权利要求1-4任一项所述的方法，其特征在于，所述k1＝k2＝1。

6.一种模型训练方法，其特征在于，包括：

7.如权利要求6所述的方法，其特征在于，所述图像token解码器包括估计网络和图像token生成网络；通过待训练的图像token解码器，根据所述第一文本样本的token序列以及所述第一文本样本的特征向量，经过n次迭代预测待生成图像的token序列，包括：

8.如权利要求7所述的方法，其特征在于，根据所述待生成图像的token序列与所述第一图像样本的token序列之间的损失调整所述图像token解码器的网络参数，包括：

9.如权利要求6-8任一项所述的方法，其特征在于，在第i次迭代，预测第i个l型区块的token序列，包括：

10.一种文本生成图像的装置，其特征在于，包括：...

【专利技术属性】
技术研发人员：魏龙辉，庄越挺，汤斯亮，李嘉成，田奇，
申请(专利权)人：华为云计算技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人