一种文生图模型的训练方法技术

技术编号：39662624 阅读：6 留言：0更新日期：2023-12-11 18:25

一种文生图模型的训练方法

全部详细技术资料下载

【技术实现步骤摘要】
一种文生图模型的训练方法、装置、设备及存储介质

[0001]本申请涉及人工智能
，尤其涉及一种文生图模型的训练方法
、
装置
、
设备及存储介质
。

技术介绍

[0002]在人工智能
(Artificial Intelligence
，
AI)
长期发展中，文生图模型有了显著提升；其中，文生图模型能够依照给定的文本提示实现高质量和多样化的图像输出
。
而为了文生图模型输出的准确性，需要对文生图模型进一步微调
。
[0003]目前，对文生图模型进行微调的方式至少包括：方式一
、
基于图像以及物体概念对文生图模型进行微调，方式二
、
基于物体概念图片转换后的提示词对文生图模型进行微调
。
[0004]但是，不论采用方式一还是方式二，在对文生图模型进行微调时，均是使文生图模型专注于单一物体的嵌入，忽视了多物体场景的复杂性，且在微调过程中，使用的训练样本中包含复杂的背景信息，会对模型的训练造成干扰，导致文生图模型训练不准确
。
[0005]因此，如何在多物体场景下，获得准确的文生图模型是目前需要解决的技术问题
。

技术实现思路

[0006]本申请实施例提供一种文生图模型的训练方法
、
装置
、
设备及存储介质，用以在多物体场景下，获得准确的文生图模型，以扩展文生图模型的应用场景
。
...

【技术保护点】

【技术特征摘要】
1.
一种文生图模型的训练方法，其特征在于，所述方法包括：基于图文样本对训练集，对待训练文生图模型执行循环迭代训练，获得目标文生图模型；其中，在一次循环迭代过程中执行：从所述图文样本对训练集中选取图文样本对；其中，所述图文样本对包括：样本图像和所述样本图像的描述文本，所述样本图像中包括至少两个物体；获得所述至少两个物体各自对应的掩码图像及关联的物体类名；其中，所述掩码图像用于区别相应物体在所述样本图像中的位置区域；将所述样本图像以及所述描述文本，输入所述待训练文生图模型，获得所述样本图像的图像预测噪声；以及，将所述至少两个掩码图像及关联的物体类名，输入所述待训练文生图模型，获得至少两个物体预测噪声，其中一个物体预测噪声对应一个掩码图像；基于所述图像预测噪声和所述至少两个物体预测噪声构建的损失函数，对所述待训练文生图模型进行调参
。2.
如权利要求1所述的方法，其特征在于，将所述样本图像以及所述描述文本，输入所述待训练文生图模型，获得所述样本图像的图像预测噪声，包括：通过所述待训练文生图模型执行如下操作：获得所述样本图像的原始图像特征，以及所述描述文本的第一文本特征；对所述原始图像特征进行加噪处理，获得第一噪声图像特征；通过所述待训练文生图模型中的去噪网络，结合所述第一文本特征和所述第一噪声图像特征，预测所述样本图像的图像预测噪声
。3.
如权利要求1所述的方法，其特征在于，所述将所述至少两个掩码图像及关联的物体类名，输入所述待训练文生图模型，获得至少两个物体预测噪声，包括：针对所述至少两个掩码图像中的各个掩码图像，分别构建相应的掩码图文对；其中，所述掩码图文对中包括一个掩码图像及关联的物体类名；通过所述待训练文生图模型，对所述掩码图文对执行如下操作：获得所述掩码图像的掩码图像特征，以及所述物体类名的第二文本特征；对所述掩码图像特征进行加噪处理，获得第二噪声图像特征；通过所述待训练文生图模型中的去噪网络，结合所述第二文本特征和所述第二噪声图像特征，预测所述掩码图像的物体预测噪声
。4.
如权利要求1所述的方法，其特征在于，基于所述图像预测噪声和所述至少两个物体预测噪声构建损失函数，包括：获得所述图像预测噪声和关联的图像目标噪声之间的第一差异信息；针对所述至少两个物体预测噪声中的每个物体预测噪声，分别获得所述物体预测噪声和关联的物体目标噪声之间的第二差异信息；基于所述第一差异信息，以及至少两个第二差异信息，构建损失函数
。5.
如权利要求4所述的方法，其特征在于，每个所述掩码图像关联的物体目标噪声是通过如下方式确定的：根据所述图像目标噪声和所述掩码图像，确定关联的掩码区域的第一目标噪声；根据所述图像预测噪声和所述掩码图像，确定除所述掩码区域外的第二目标噪声；基于所述第一目标噪声和所述第二目标噪声，确定所述掩码图像关联的物体目标噪
声
。6.
如权利要求1‑5任一所述的方法，其特征在于，所述采用所述损失函数，对所述待训练文生图模型进行调参，包括：对所述待训练文生图模型中的文本编码器进行调参；以及对所述待训练文生图模型中去噪网络中，各个注意力线性层上的低秩自适应权重进行调整
。7.
如权利要求1‑5任一所述的方法，其特征在于，所述获得目标文生图模型之后，还包括：获取指定文本；其中，所述指定...

【专利技术属性】
技术研发人员：谢苁，卢健祥，郭卉，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人