一种文生图模型的训练方法技术

技术编号:39662624 阅读:6 留言:0更新日期:2023-12-11 18:25
一种文生图模型的训练方法

【技术实现步骤摘要】
一种文生图模型的训练方法、装置、设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种文生图模型的训练方法

装置

设备及存储介质


技术介绍

[0002]在人工智能
(Artificial Intelligence

AI)
长期发展中,文生图模型有了显著提升;其中,文生图模型能够依照给定的文本提示实现高质量和多样化的图像输出

而为了文生图模型输出的准确性,需要对文生图模型进一步微调

[0003]目前,对文生图模型进行微调的方式至少包括:方式一

基于图像以及物体概念对文生图模型进行微调,方式二

基于物体概念图片转换后的提示词对文生图模型进行微调

[0004]但是,不论采用方式一还是方式二,在对文生图模型进行微调时,均是使文生图模型专注于单一物体的嵌入,忽视了多物体场景的复杂性,且在微调过程中,使用的训练样本中包含复杂的背景信息,会对模型的训练造成干扰,导致文生图模型训练不准确

[0005]因此,如何在多物体场景下,获得准确的文生图模型是目前需要解决的技术问题


技术实现思路

[0006]本申请实施例提供一种文生图模型的训练方法

装置

设备及存储介质,用以在多物体场景下,获得准确的文生图模型,以扩展文生图模型的应用场景

[0007]第一方面,本申请实施例提供一种文生图模型的训练方法,该方法包括:
[0008]基于图文样本对训练集,对待训练文生图模型执行循环迭代训练,获得目标文生图模型;其中,在一次循环迭代过程中执行:
[0009]从图文样本对训练集中选取图文样本对;其中,图文样本对包括:样本图像和样本图像的描述文本,样本图像中包括至少两个物体;
[0010]获得至少两个物体各自对应的掩码图像及关联的物体类名;其中,掩码图像用于区别相应物体在样本图像中的位置区域;
[0011]将样本图像以及描述文本,输入待训练文生图模型,获得样本图像的图像预测噪声;以及,将至少两个掩码图像及关联的物体类名,输入待训练文生图模型,获得至少两个物体预测噪声,其中一个物体预测噪声对应一个掩码图像;
[0012]基于图像预测噪声和至少两个物体预测噪声构建的损失函数,对待训练文生图模型进行调参

[0013]第二方面,本申请实施例提供一种文生图模型的训练装置,该装置包括:训练单元,训练单元中包括:获取子单元

获得子单元

预测子单元以及调参子单元;其中:
[0014]训练单元,用于基于图文样本对训练集,对待训练文生图模型执行循环迭代训练,获得目标文生图模型;其中,在一次循环迭代过程中执行:
[0015]获取子单元,用于从图文样本对训练集中选取图文样本对;其中,图文样本对包括:样本图像和样本图像的描述文本,样本图像中包括至少两个物体;
[0016]获得子单元,用于获得至少两个物体各自对应的掩码图像及关联的物体类名;其中,掩码图像用于区别相应物体在样本图像中的位置区域;
[0017]预测子单元,用于将样本图像以及描述文本,输入待训练文生图模型,获得样本图像的图像预测噪声;以及,将至少两个掩码图像及关联的物体类名,输入待训练文生图模型,获得至少两个物体预测噪声,其中一个物体预测噪声对应一个掩码图像;
[0018]调参子单元,用于基于图像预测噪声和至少两个物体预测噪声构建的损失函数,对待训练文生图模型进行调参

[0019]在一种可能的实现方式中,预测子单元具体通过待训练文生图模型执行如下操作:
[0020]获得样本图像的原始图像特征,以及描述文本的第一文本特征;
[0021]对原始图像特征进行加噪处理,获得第一噪声图像特征;
[0022]通过待训练文生图模型中的去噪网络,结合第一文本特征和第一噪声图像特征,预测样本图像的图像预测噪声

[0023]在一种可能的实现方式中,预测子单元具体用于:
[0024]针对至少两个掩码图像中的各个掩码图像,分别构建相应的掩码图文对;其中,掩码图文对中包括一个掩码图像及关联的物体类名;
[0025]通过待训练文生图模型,对掩码图文对执行如下操作:
[0026]获得掩码图像的掩码图像特征,以及物体类名的第二文本特征;
[0027]对掩码图像特征进行加噪处理,获得第二噪声图像特征;
[0028]通过待训练文生图模型中的去噪网络,结合第二文本特征和第二噪声图像特征,预测掩码图像的物体预测噪声

[0029]在一种可能的实现方式中,调参子单元,具体用于:
[0030]获得图像预测噪声和关联的图像目标噪声之间的第一差异信息;
[0031]针对至少两个物体预测噪声中的每个物体预测噪声,分别获得物体预测噪声和关联的物体目标噪声之间的第二差异信息;
[0032]基于第一差异信息,以及至少两个第二差异信息,构建损失函数

[0033]在一种可能的实现方式中,每个掩码图像关联的物体目标噪声是通过如下方式确定的:
[0034]根据图像目标噪声和掩码图像,确定关联的掩码区域的第一目标噪声;
[0035]根据图像预测噪声和掩码图像,确定除掩码区域外的第二目标噪声;
[0036]基于第一目标噪声和第二目标噪声,确定掩码图像关联的物体目标噪声

[0037]在一种可能的实现方式中,调参子单元,具体用于:
[0038]对待训练文生图模型中的文本编码器进行调参;以及
[0039]对待训练文生图模型中去噪网络中,各个注意力线性层上的低秩自适应权重进行调整

[0040]在一种可能的实现方式中,该装置还包括生成单元,生成单元具体用于:
[0041]获取指定文本;其中,指定文本中包含至少两个目标类名;
[0042]通过目标文生图模型,基于指定文本,基于指定文本,结合至少两个目标类名各自关联的历史参考对象,获得指定文本对应的目标图像

[0043]在一种可能的实现方式中,生成单元还用于:
[0044]将指定文本输入到目标文生图模型之前,确定图文样本对训练集以及历史参考图像中包括至少两个目标类名各自关联的历史参考对象

[0045]第三方面,本申请实施例提供一种计算设备,包括:存储器和处理器,其中,存储器,用于存储计算机程序;处理器,用于执行计算机程序以实现本申请实施例提供的文生图模型的训练方法的步骤

[0046]第四方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现本申请实施例提供的文生图模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文生图模型的训练方法,其特征在于,所述方法包括:基于图文样本对训练集,对待训练文生图模型执行循环迭代训练,获得目标文生图模型;其中,在一次循环迭代过程中执行:从所述图文样本对训练集中选取图文样本对;其中,所述图文样本对包括:样本图像和所述样本图像的描述文本,所述样本图像中包括至少两个物体;获得所述至少两个物体各自对应的掩码图像及关联的物体类名;其中,所述掩码图像用于区别相应物体在所述样本图像中的位置区域;将所述样本图像以及所述描述文本,输入所述待训练文生图模型,获得所述样本图像的图像预测噪声;以及,将所述至少两个掩码图像及关联的物体类名,输入所述待训练文生图模型,获得至少两个物体预测噪声,其中一个物体预测噪声对应一个掩码图像;基于所述图像预测噪声和所述至少两个物体预测噪声构建的损失函数,对所述待训练文生图模型进行调参
。2.
如权利要求1所述的方法,其特征在于,将所述样本图像以及所述描述文本,输入所述待训练文生图模型,获得所述样本图像的图像预测噪声,包括:通过所述待训练文生图模型执行如下操作:获得所述样本图像的原始图像特征,以及所述描述文本的第一文本特征;对所述原始图像特征进行加噪处理,获得第一噪声图像特征;通过所述待训练文生图模型中的去噪网络,结合所述第一文本特征和所述第一噪声图像特征,预测所述样本图像的图像预测噪声
。3.
如权利要求1所述的方法,其特征在于,所述将所述至少两个掩码图像及关联的物体类名,输入所述待训练文生图模型,获得至少两个物体预测噪声,包括:针对所述至少两个掩码图像中的各个掩码图像,分别构建相应的掩码图文对;其中,所述掩码图文对中包括一个掩码图像及关联的物体类名;通过所述待训练文生图模型,对所述掩码图文对执行如下操作:获得所述掩码图像的掩码图像特征,以及所述物体类名的第二文本特征;对所述掩码图像特征进行加噪处理,获得第二噪声图像特征;通过所述待训练文生图模型中的去噪网络,结合所述第二文本特征和所述第二噪声图像特征,预测所述掩码图像的物体预测噪声
。4.
如权利要求1所述的方法,其特征在于,基于所述图像预测噪声和所述至少两个物体预测噪声构建损失函数,包括:获得所述图像预测噪声和关联的图像目标噪声之间的第一差异信息;针对所述至少两个物体预测噪声中的每个物体预测噪声,分别获得所述物体预测噪声和关联的物体目标噪声之间的第二差异信息;基于所述第一差异信息,以及至少两个第二差异信息,构建损失函数
。5.
如权利要求4所述的方法,其特征在于,每个所述掩码图像关联的物体目标噪声是通过如下方式确定的:根据所述图像目标噪声和所述掩码图像,确定关联的掩码区域的第一目标噪声;根据所述图像预测噪声和所述掩码图像,确定除所述掩码区域外的第二目标噪声;基于所述第一目标噪声和所述第二目标噪声,确定所述掩码图像关联的物体目标噪

。6.
如权利要求1‑5任一所述的方法,其特征在于,所述采用所述损失函数,对所述待训练文生图模型进行调参,包括:对所述待训练文生图模型中的文本编码器进行调参;以及对所述待训练文生图模型中去噪网络中,各个注意力线性层上的低秩自适应权重进行调整
。7.
如权利要求1‑5任一所述的方法,其特征在于,所述获得目标文生图模型之后,还包括:获取指定文本;其中,所述指定...

【专利技术属性】
技术研发人员:谢苁卢健祥郭卉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1