图像生成模型的训练方法、装置、设备及存储介质制造方法及图纸

技术编号:39240593 阅读:14 留言:0更新日期:2023-10-30 11:53
本申请公开了一种图像生成模型的训练方法、装置、设备及存储介质,涉及人工智能技术领域。所述方法包括:获取图像生成模型的训练样本集,训练样本集中包括至少一个图文对,每个图文对中包括具有匹配关系的一张原始图像、原始图像对应的描述文本以及原始图像对应的至少一条编辑文本;通过图像生成模型根据原始图像和原始图像对应的编辑文本,生成原始图像对应的编辑后图像;根据原始图像、编辑后图像、描述文本以及编辑文本,确定图像生成模型的第一损失函数值,第一损失函数值用于评估图像生成模型的图像生成效果;根据第一损失函数值对图像生成模型的参数进行调整,得到训练后的图像生成模型。上述方法提升了生成的编辑后图像的准确度。准确度。准确度。

【技术实现步骤摘要】
图像生成模型的训练方法、装置、设备及存储介质


[0001]本申请涉及人工智能(Artificial Intelligence,简称AI)
,特别涉及一种图像生成模型的训练方法、装置、设备及存储介质。

技术介绍

[0002]随着图生图(image

to

image)技术的持续发展,用户可以同时输入编辑文本和原始图像,得到针对原始图像的编辑后图像。例如,原始图像是一张夏天的图像,编辑文本是变成冬天,则通过模型能够得到一张编辑后图像,该编辑后图像是将原始图像中的场景变成冬天的场景。
[0003]相关技术中,需要利用三元组样本(原始图像、编辑后图像、编辑文本)来对模型进行上述图生成能力的训练,训练后的模型能够实现根据输入的编辑文本来对原始图像进行编辑,得到编辑后图像。
[0004]然而,上述训练方法中三元组样本的数量较少,且三元组样本中的编辑后图像可能会存在偏差,导致三元组样本自身的准确度不高。因此通过三元组样本训练出来的模型生成的编辑后图像的准确度也较低。

技术实现思路

[0005]本申请实施例提供了一种图像生成模型的训练方法、装置、设备及存储介质,能够提升生成的编辑后图像的准确度。所述技术方案如下:
[0006]根据本申请实施例的一个方面,提供了一种图像生成模型的训练方法,所述方法包括:
[0007]获取所述图像生成模型的训练样本集,所述训练样本集中包括至少一个图文对,每个图文对中包括具有匹配关系的一张原始图像、所述原始图像对应的描述文本以及所述原始图像对应的至少一条编辑文本,所述描述文本用于描述所述原始图像的内容,所述编辑文本用于通过所述图像生成模型对所述原始图像进行编辑;
[0008]通过所述图像生成模型根据所述原始图像和所述原始图像对应的编辑文本,生成所述原始图像对应的编辑后图像;
[0009]根据所述原始图像、所述编辑后图像、所述描述文本以及所述编辑文本,确定所述图像生成模型的第一损失函数值,所述第一损失函数值用于评估所述图像生成模型的图像生成效果;
[0010]根据所述第一损失函数值对所述图像生成模型的参数进行调整,得到训练后的图像生成模型。
[0011]根据本申请实施例的一个方面,提供了一种图像生成模型的训练装置,所述装置包括:
[0012]样本获取模块,用于获取所述图像生成模型的训练样本集,所述训练样本集中包括至少一个图文对,每个图文对中包括具有匹配关系的一张原始图像、所述原始图像对应
的描述文本以及所述原始图像对应的至少一条编辑文本,所述描述文本用于描述所述原始图像的内容,所述编辑文本用于通过所述图像生成模型对所述原始图像进行编辑;
[0013]图像生成模块,用于通过所述图像生成模型根据所述原始图像和所述原始图像对应的编辑文本,生成所述原始图像对应的编辑后图像;
[0014]损失确定模块,用于根据所述原始图像、所述编辑后图像、所述描述文本以及所述编辑文本,确定所述图像生成模型的第一损失函数值,所述第一损失函数值用于评估所述图像生成模型的图像生成效果;
[0015]参数调整模块,用于根据所述第一损失函数值对所述图像生成模型的参数进行调整,得到训练后的图像生成模型。
[0016]根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述图像生成模型的训练方法。
[0017]根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述图像生成模型的训练方法。
[0018]根据本申请实施例的一个方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序由处理器加载并执行以实现上述图像生成模型的训练方法。
[0019]本申请实施例提供的技术方案可以带来如下有益效果:
[0020]一方面,通过一张原始图像、原始图像对应的描述文本以及原始图像对应的至少一条编辑文本来构建图文对,利用该图文对组成的训练样本集来对图像生成模型进行训练。由于该训练样本集中的图文对的构建比较简单,因此,训练样本集的获取成本较低。另外图文对中每一个元素的准确度都相对较高,进而使得利用该训练样本集训练的图像生成模型生成的编辑后图像比较符合编辑文本的要求,准确度较高。
[0021]另一方面,根据原始图像、编辑后图像、描述文本以及编辑文本,确定出来的图像生成模型的第一损失函数值用于评估图像生成模型的图像生成效果,相比于相关技术中简单的利用编辑后图像和原始图像的图像差异来确定损失,本申请实施例中的第一损失函数值表征的内容更加丰富,其实现了从文本和图像两方面出发,综合评估图像生成效果。由于本申请从图像生成的实际情况出发来设计损失,能够实现可靠的损失计算。因此,基于该第一损失函数值训练的图像生成模型能够允许生成效果随编辑文本变化,侧面提升了图像生成模型的图像生成效果。
附图说明
[0022]图1是本申请一个实施例提供的方案实施环境的示意图;
[0023]图2是本申请一个实施例提供的图像生成模型的训练及应用方法的示意图;
[0024]图3是相关技术中提供的三元组样本的示意图;
[0025]图4是本申请一个实施例提供的图像生成模型的训练方法的流程图;
[0026]图5是本申请另一个实施例提供的图像生成模型的训练方法的流程图;
[0027]图6是本申请一个实施例提供的图像生成模型的结构示意图;
[0028]图7是本申请一个实施例提供的QKV网络的结构示意图;
[0029]图8是本申请一个实施例提供的图像生成模型的第二次训练的训练方法的示意图;
[0030]图9是本申请另一个实施例提供的图像生成模型的训练方法的流程图;
[0031]图10是本申请一个实施例提供的图像生成模型的第一次训练的训练方法的示意图;
[0032]图11是本申请一个实施例提供的图像生成模型的使用方法的示意图;
[0033]图12是本申请一个实施例提供的图像生成方法的示意图;
[0034]图13是本申请一个实施例提供的图像生成模型的训练装置的框图;
[0035]图14是本申请另一个实施例提供的图像生成模型的训练装置的框图;
[0036]图15是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
[0037]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0038]在介绍本申请技术方案之前,先对本申请涉及的一些
技术介绍
知识进行介绍说明。以下相关技术作为可选方案与本申请实施例的技术方案可以进行任意结合,其均属于本申请实施例的保护范围。本申请实施例包括以下内容中的至少部分内容。
[0039]人工智能是利用数字计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像生成模型的训练方法,其特征在于,所述方法包括:获取所述图像生成模型的训练样本集,所述训练样本集中包括至少一个图文对,每个图文对中包括具有匹配关系的一张原始图像、所述原始图像对应的描述文本以及所述原始图像对应的至少一条编辑文本,所述描述文本用于描述所述原始图像的内容,所述编辑文本用于通过所述图像生成模型对所述原始图像进行编辑;通过所述图像生成模型根据所述原始图像和所述原始图像对应的编辑文本,生成所述原始图像对应的编辑后图像;根据所述原始图像、所述编辑后图像、所述描述文本以及所述编辑文本,确定所述图像生成模型的第一损失函数值,所述第一损失函数值用于评估所述图像生成模型的图像生成效果;根据所述第一损失函数值对所述图像生成模型的参数进行调整,得到训练后的图像生成模型。2.根据权利要求1所述的方法,其特征在于,所述根据所述原始图像、所述编辑后图像、所述描述文本以及所述编辑文本,确定所述图像生成模型的第一损失函数值,包括:根据图像表征差异与文本表征差异之间的相似度,确定第一子损失;其中,所述图像表征差异是指所述编辑后图像对应的图像表征与所述原始图像对应的图像表征之间的差值,所述文本表征差异是指所述编辑文本对应的文本表征与所述描述文本对应的文本表征之间的差值,所述第一子损失用于表征图像生成过程中图像和文本的对齐程度;根据所述编辑后图像与所述原始图像之间的差异,确定第二子损失,所述第二子损失用于表征所述编辑后图像与所述原始图像之间的一致性;根据所述编辑后图像对应的图像表征和所述编辑文本对应的文本表征,确定第三子损失,所述第三子损失用于表征所述编辑后图像与所述编辑文本之间的一致性;根据所述第一子损失、所述第二子损失和所述第三子损失,确定所述图像生成模型的第一损失函数值。3.根据权利要求2所述的方法,其特征在于,所述根据图像表征差异与文本表征差异之间的相似度,确定第一子损失,包括:计算所述编辑后图像对应的图像表征与所述原始图像对应的图像表征之间的差值,得到第一差值信息;计算所述编辑文本对应的文本表征与所述描述文本对应的文本表征之间的差值,得到第二差值信息;根据所述第一差值信息与所述第二差值信息之间的相似度,确定所述第一子损失。4.根据权利要求2所述的方法,其特征在于,所述根据所述编辑后图像与所述原始图像之间的差异,确定第二子损失,包括:根据所述编辑后图像与所述原始图像中至少一个对应位置像素点的像素值之间的差值,确定所述第二子损失。5.根据权利要求2所述的方法,其特征在于,所述根据所述编辑后图像对应的图像表征和所述编辑文本对应的文本表征,确定第三子损失,包括:根据所述编辑后图像对应的图像表征和所述编辑文本对应的文本表征之间的乘积,确定所述第三子损失。
6.根据权利要求2所述的方法,其特征在于,所述根据所述第一子损失、所述第二子损失和所述第三子损失,确定所述图像生成模型的第一损失函数值,包括:对所述第一子损失、所述第二子损失和所述第三子损失进行加权求和,确定所述图像生成模型的第一损失函数值。7.根据权利要求1所述的方法,其特征在于,所述通过所述图像生成模型根据所述原始图像和所述原始图像对应的编辑文本,生成所述原始图像对应的编辑后图像之前,还包括:通过所述图像生成模型根据所述原始图像和所述原始图像对应的描述文本,生成所述原...

【专利技术属性】
技术研发人员:郭卉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1