文本生成图像模型训练方法、文本生成图像方法及装置制造方法及图纸

技术编号：41293145 阅读：4 留言：0更新日期：2024-05-13 14:43

本公开实施例提供一种文本生成图像模型训练方法、文本生成图像方法、装置、电子设备及存储介质。该方法包括：获取包括多个图文对样本的训练样本；将所述训练样本输入到图文对比学习模型中进行训练，获得第一损失函数；将所述训练样本输入到图文生成学习模型中进行训练，获得第二损失函数；基于所述第一损失函数和第二损失函数对文本生成图像模型进行训练，以获得目标文本生成图像模型。该方法通过在图文对比学习模型基础上引入图文对比学习模型，不仅能在训练中学习到图文相关性，还能提前适应文生图任务需求，使得相关模型可以关注细粒度信息的表征能力。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及计算机，具体而言，涉及一种文本生成图像模型训练方法、文本生成图像方法、装置、电子设备、存储介质及计算机程序产品。

技术介绍

1、随着通用人工智能(artificial general intelligence，agi)技术的发展，基于文本生成图像的ai产品和功能越来越多。在文本生成图像类产品中，其核心技术之一是clip(contrastive language-image pre-training，文本图像对比预训练)算法。clip算法是一种基于对比文本-图像对的预训练方法。

2、然而，clip算法基于对比学习的训练机制虽然擅长于捕捉文本描述与图像主体之间的相关性，但它在精确对应文本中的细部特征，如物体的具体颜色、数量等细微属性方面存在局限性。在文生图任务的实际应用中，clip的文本编码器负责将输入文本条件转化为能够指导图像生成过程的关键信号。一旦它未能准确地表征文本的这些细粒度特性，就可能导致生成图像出现概念表达不全或属性描绘失准的重大问题。

技术实现思路

1、本公开实施例提供一种文本生成图像模型训练方法、文本生成图像方法、装置、电子设备、存储介质及计算机程序产品，该方法通过在clip算法基础上，引入了生成学习任务的监督学习，不仅能在训练中学习到图文相关性，还能提前适应文生图任务需求，使得相关模型可以关注细粒度信息的表征能力。

2、根据本公开实施例的第一方面，提供一种文本生成图像模型训练方法，包括：获取包括多个图文对样本的训练样本；所述图文对样本

3、在本公开的一些示例性实施例中，所述图文对比学习模型包括：文本特征编码器、图像特征编码器和对比学习模块；所述将所述训练样本输入到图文对比学习模型中进行训练，获得第一损失函数，包括：将所述文本样本输入所述文本特征编码器进行文本向量编码处理，得到文本特征向量；将所述图像样本输入所述图像特征编码器进行图像向量编码处理，得到图像特征向量；将所述文本特征向量与图像特征向量输入对比学习模块进行对比，得到所述第一损失函数。

4、在本公开的一些示例性实施例中，所述将所述文本特征向量与图像特征向量输入对比学习模块进行对比，得到所述第一损失函数，包括：计算具有对应关系的所述文本特征向量与所述图像特征向量之间的第一向量距离；计算非对应关系的所述文本特征向量与所述图像特征向量之间的第二向量距离；根据所述第一向量距离和所述第二向量距离，得到所述第一损失函数。

5、在本公开的一些示例性实施例中，所述将所述训练样本输入到图文生成学习模型中进行训练，获得所述第二损失函数，包括：将所述文本样本输入第一图像标记预测模型进行图像标记预测处理，或者将所述文本特征向量输入第二图像标记预测模型进行图像标记预测处理，得到第一图像标记；将所述图像样本输入所述图像编码器进行图像标记获取处理，得到第二图像标记；将所述第一图像标记与所对应的所述第二图像标记输入所述生成学习模块进行对比，获得所述第二损失函数。

6、在本公开的一些示例性实施例中，所述将所述第一图像标记与所对应的所述第二图像标记输入所述生成学习模块进行对比，获得所述第二损失函数，包括：将所述第一图像标记与所对应的所述第二图像标记进行对比，获得所述第一图像标记中各个所述图像特征相对于所述第二图像标记中对应图像特征的预测概率；根据所述预测概率，通过交叉熵计算获得所述第二损失函数。

7、在本公开的一些示例性实施例中，所述基于所述第一损失函数和第二损失函数对文本生成图像模型进行训练，以对所述文本生成图像模型中的权重参数进行调整，包括：将所述第一损失函数和第二损失函数进行加权求和，得到第三损失函数；根据所述第三损失函数对文本生成图像模型进行训练，以对所述文本生成图像模型中的权重参数进行调整。

8、在本公开的一些示例性实施例中，将所述第一图像标记输入图像解码器进行图像生成处理，得到预测图像；将所述预测图像与所述图像样本进行对比，获得第四损失函数；将所述第一损失函数、第二损失函数和第四损失函数进行加权求和，得到第五损失函数；根据所述第五损失函数对文本生成图像模型进行训练，以对所述文本生成图像模型中的权重参数进行调整。

9、根据本公开实施例的第二方面，提供一种文本生成图像方法，包括：获取图像描述文本；所述图像描述文本为用于描述图像的文本；将所述图像描述文本输入文本生成图像模型；所述文本生成图像模型是通过任一项所述的文本生成图像模型训练方法训练而得到的；所述文本生成图像模型根据所述图像描述文本，生成对应的目标图像。

10、根据本公开实施例的第三方面，提供一种文本生成图像模型训练装置，包括：样本获取模块，被配置为获取包括多个图文对样本的训练样本；所述图文对样本包括呈对应关系的文本样本和图像样本；对比学习模块，被配置为将所述训练样本输入到图文对比学习模型中进行训练，获得基于所述图文对样本的第一损失函数；所述图文对比学习模型，用于对比具有对应关系的所述文本样本与图像样本之间的相关性；生成学习模块，被配置为将所述训练样本输入到图文生成学习模型中进行训练，获得基于所述图文对样本的第二损失函数；所述图文生成学习模型，用于对比基于具有对应关系的所述文本样本与图像样本所分别生成的图像标记之间的相关性；模型训练模块，被配置为基于所述第一损失函数和第二损失函数对文本生成图像模型进行训练，以对所述文本生成图像模型中的权重参数进行调整；模型生成模块，被配置为响应于所述文本生成图像模型满足预设收敛条件，获得目标文本生成图像模型。

11、根据本公开实施例的第四方面，提供一种文本生成图像装置，包括：文本获取模块，被配置为获取图像描述文本；所述图像描述文本为用于描述图像的文本；文本输入模块，被配置为将所述图像描述文本输入文本生成图像模型；所述文本生成图像模型是通过任一项所述的文本生成图像模型训练方法训练而得到的；图像生成模块，被配置为所述文本生成图像模型根据所述图像描述文本，生成对应的目标图像。

12、根据本公开实施例的第五方面，提供一种电子设备，其特征在于，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述可执行指令，以实现任一项所述的文本生成图像模型训练方法或任一项所述的文本生成图像方法。

13、根据本公开实施例的第六方面，提供一种计算机可读存储介质，当所述计算机本文档来自技高网...

【技术保护点】

1.一种文本生成图像模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述图文对比学习模型包括：文本特征编码器、图像特征编码器和对比学习模块；

3.根据权利要求2所述的方法，其特征在于，所述将所述文本特征向量与图像特征向量输入对比学习模块进行对比，得到所述第一损失函数，包括：

4.根据权利要求2所述的方法，其特征在于，所述将所述训练样本输入到图文生成学习模型中进行训练，获得所述第二损失函数，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述第一图像标记与所对应的所述第二图像标记输入所述生成学习模块进行对比，获得所述第二损失函数，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述第一损失函数和第二损失函数对文本生成图像模型进行训练，以对所述文本生成图像模型中的权重参数进行调整，包括：

7.根据权利要求4所述的方法，其特征在于，还包括：

8.一种文本生成图像方法，其特征在于，包括：

9.一种文本生成图像模型训练装置，其特征在于，包括：

...

【技术特征摘要】

1.一种文本生成图像模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述图文对比学习模型包括：文本特征编码器、图像特征编码器和对比学习模块；

3.根据权利要求2所述的方法，其特征在于，所述将所述文本特征向量与图像特征向量输入对比学习模块进行对比，得到所述第一损失函数，包括：

4.根据权利要求2所述的方法，其特征在于，所述将所述训练样本输入到图文生成学习模型中进行训练，获得所述第二损失函数，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述第一损失函数和第二损失函数对文本生成图像模型进行训练，以对所述...

【专利技术属性】
技术研发人员：金坤，高婷婷，
申请(专利权)人：北京达佳互联信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人