图像生成模型的训练方法、装置、设备及存储介质制造方法及图纸

技术编号：39240593 阅读：14 留言：0更新日期：2023-10-30 11:53

本申请公开了一种图像生成模型的训练方法、装置、设备及存储介质，涉及人工智能技术领域。所述方法包括：获取图像生成模型的训练样本集，训练样本集中包括至少一个图文对，每个图文对中包括具有匹配关系的一张原始图像、原始图像对应的描述文本以及原始图像对应的至少一条编辑文本；通过图像生成模型根据原始图像和原始图像对应的编辑文本，生成原始图像对应的编辑后图像；根据原始图像、编辑后图像、描述文本以及编辑文本，确定图像生成模型的第一损失函数值，第一损失函数值用于评估图像生成模型的图像生成效果；根据第一损失函数值对图像生成模型的参数进行调整，得到训练后的图像生成模型。上述方法提升了生成的编辑后图像的准确度。准确度。准确度。

全部详细技术资料下载

【技术实现步骤摘要】
图像生成模型的训练方法、装置、设备及存储介质

[0001]本申请涉及人工智能(Artificial Intelligence，简称AI)
，特别涉及一种图像生成模型的训练方法、装置、设备及存储介质。

技术介绍

[0002]随着图生图(image
‑
to
‑
image)技术的持续发展，用户可以同时输入编辑文本和原始图像，得到针对原始图像的编辑后图像。例如，原始图像是一张夏天的图像，编辑文本是变成冬天，则通过模型能够得到一张编辑后图像，该编辑后图像是将原始图像中的场景变成冬天的场景。
[0003]相关技术中，需要利用三元组样本(原始图像、编辑后图像、编辑文本)来对模型进行上述图生成能力的训练，训练后的模型能够实现根据输入的编辑文本来对原始图像进行编辑，得到编辑后图像。
[0004]然而，上述训练方法中三元组样本的数量较少，且三元组样本中的编辑后图像可能会存在偏差，导致三元组样本自身的准确度不高。因此通过三元组样本训练出来的模型生成的编辑后图像的准确度也较低。

技术实现思路

[0005]本申请实施例提供了一种图像生成模型的训练方法、装置、设备及存储介质，能够提升生成的编辑后图像的准确度。所述技术方案如下：
[0006]根据本申请实施例的一个方面，提供了一种图像生成模型的训练方法，所述方法包括：
[0007]获取所述图像生成模型的训练样本集，所述训练样本集中包括至少一个图文对，每个图文对中包括具有匹配关系的一张原始图像、所述原始图像对应...

【技术保护点】

【技术特征摘要】
1.一种图像生成模型的训练方法，其特征在于，所述方法包括：获取所述图像生成模型的训练样本集，所述训练样本集中包括至少一个图文对，每个图文对中包括具有匹配关系的一张原始图像、所述原始图像对应的描述文本以及所述原始图像对应的至少一条编辑文本，所述描述文本用于描述所述原始图像的内容，所述编辑文本用于通过所述图像生成模型对所述原始图像进行编辑；通过所述图像生成模型根据所述原始图像和所述原始图像对应的编辑文本，生成所述原始图像对应的编辑后图像；根据所述原始图像、所述编辑后图像、所述描述文本以及所述编辑文本，确定所述图像生成模型的第一损失函数值，所述第一损失函数值用于评估所述图像生成模型的图像生成效果；根据所述第一损失函数值对所述图像生成模型的参数进行调整，得到训练后的图像生成模型。2.根据权利要求1所述的方法，其特征在于，所述根据所述原始图像、所述编辑后图像、所述描述文本以及所述编辑文本，确定所述图像生成模型的第一损失函数值，包括：根据图像表征差异与文本表征差异之间的相似度，确定第一子损失；其中，所述图像表征差异是指所述编辑后图像对应的图像表征与所述原始图像对应的图像表征之间的差值，所述文本表征差异是指所述编辑文本对应的文本表征与所述描述文本对应的文本表征之间的差值，所述第一子损失用于表征图像生成过程中图像和文本的对齐程度；根据所述编辑后图像与所述原始图像之间的差异，确定第二子损失，所述第二子损失用于表征所述编辑后图像与所述原始图像之间的一致性；根据所述编辑后图像对应的图像表征和所述编辑文本对应的文本表征，确定第三子损失，所述第三子损失用于表征所述编辑后图像与所述编辑文本之间的一致性；根据所述第一子损失、所述第二子损失和所述第三子损失，确定所述图像生成模型的第一损失函数值。3.根据权利要求2所述的方法，其特征在于，所述根据图像表征差异与文本表征差异之间的相似度，确定第一子损失，包括：计算所述编辑后图像对应的图像表征与所述原始图像对应的图像表征之间的差值，得到第一差值信息；计算所述编辑文本对应的文本表征与所述描述文本对应的文本表征之间的差值，得到第二差值信息；根据所述第一差值信息与所述第二差值信息之间的相似度，确定所述第一子损失。4.根据权利要求2所述的方法，其特征在于，所述根据所述编辑后图像与所述原始图像之间的差异，确定第二子损失，包括：根据所述编辑后图像与所述原始图像中至少一个对应位置像素点的像素值之间的差值，确定所述第二子损失。5.根据权利要求2所述的方法，其特征在于，所述根据所述编辑后图像对应的图像表征和所述编辑文本对应的文本表征，确定第三子损失，包括：根据所述编辑后图像对应的图像表征和所述编辑文本对应的文本表征之间的乘积，确定所述第三子损失。
6.根据权利要求2所述的方法，其特征在于，所述根据所述第一子损失、所述第二子损失和所述第三子损失，确定所述图像生成模型的第一损失函数值，包括：对所述第一子损失、所述第二子损失和所述第三子损失进行加权求和，确定所述图像生成模型的第一损失函数值。7.根据权利要求1所述的方法，其特征在于，所述通过所述图像生成模型根据所述原始图像和所述原始图像对应的编辑文本，生成所述原始图像对应的编辑后图像之前，还包括：通过所述图像生成模型根据所述原始图像和所述原始图像对应的描述文本，生成所述原...

【专利技术属性】
技术研发人员：郭卉，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人