文生图扩散模型的训练方法和基于文本的图像生成方法技术

技术编号：37454474 阅读：17 留言：0更新日期：2023-05-06 09:26

本公开提供了一种文生图扩散模型的训练方法和基于文本的图像生成方法，涉及人工智能技术领域，尤其涉及深度学习、自然语言处理技术领域。具体实现方案为：由文生图扩散模型根据样本文本对加噪样本图像进行降噪处理，生成降噪样本图像；根据降噪样本图像的第一表示向量和样本文本的第二表示向量，得到第一文图对齐分数，并基于第一文图对齐分数从当前批次的训练样本中选取第一训练样本；根据第一训练样本中样本文本的原始样本图像和降噪样本图像，确定文生图扩散模型的第一损失函数，并基于第一损失函数，对文生图扩散模型进行调整；使用下一批次的训练样本继续训练，直至训练结束得到目标文生图扩散模型，提高了文生图扩散模型的训练精度。的训练精度。的训练精度。

全部详细技术资料下载

【技术实现步骤摘要】
文生图扩散模型的训练方法和基于文本的图像生成方法

[0001]本公开涉及人工智能
，尤其涉及自然语言处理
，尤其涉及一种文生图扩散模型的训练方法、基于文本的图像生成方法、装置、电子设备、存储介质和计算机程序产品。

技术介绍

[0002]目前，随着人工智能技术的不断发展，文生图扩散模型在游戏、动漫、网页设计等领域得到了广泛应用，具有效率高、自动化程度高等优点。比如，可将文本输入文生图扩散模型中，由文生图扩散模型输出图像。然而，相关技术中，文生图扩散模型的训练存在训练精度低的问题。

技术实现思路

[0003]本公开提供了一种文生图扩散模型的训练方法、基于文本的图像生成方法、装置、电子设备、存储介质和计算机程序产品。
[0004]根据本公开的一方面，提供了一种文生图扩散模型的训练方法，包括：由文生图扩散模型根据样本文本对加噪样本图像进行降噪处理，生成降噪样本图像，所述样本文本和所述加噪样本图像为一组训练样本；根据所述降噪样本图像的第一表示向量和所述样本文本的第二表示向量，得到第一文图对齐分数，并基于所述第一文图对齐分数从当前批次的训练样本中选取第一训练样本；根据所述第一训练样本中样本文本的原始样本图像和降噪样本图像，确定所述文生图扩散模型的第一损失函数，并基于所述第一损失函数，对所述文生图扩散模型进行调整；使用下一批次的训练样本对调整后的文生图扩散模型继续训练，直至训练结束得到最终的目标文生图扩散模型。
[0005]根据本公开的另一方面，提供了一种基于文本的图像生成方法，包括：获...

【技术保护点】

【技术特征摘要】
1.一种文生图扩散模型的训练方法，其中，所述方法包括：由文生图扩散模型根据样本文本对加噪样本图像进行降噪处理，生成降噪样本图像，所述样本文本和所述加噪样本图像为一组训练样本；根据所述降噪样本图像的第一表示向量和所述样本文本的第二表示向量，得到第一文图对齐分数，并基于所述第一文图对齐分数从当前批次的训练样本中选取第一训练样本；根据所述第一训练样本中样本文本的原始样本图像和降噪样本图像，确定所述文生图扩散模型的第一损失函数，并基于所述第一损失函数，对所述文生图扩散模型进行调整；使用下一批次的训练样本对调整后的文生图扩散模型继续训练，直至训练结束得到最终的目标文生图扩散模型。2.根据权利要求1所述的方法，其中，所述基于所述第一文图对齐分数从当前批次的训练样本中选取第一训练样本，包括：获取所述样本文本与所述原始样本图像之间的第二文图对齐分数；获取所述第一文图对齐分数和所述第二文图对齐分数的分数差值；根据所述分数差值从所述当前批次的训练样本中，选取所述第一训练样本。3.根据权利要求2所述的方法，其中，所述根据所述分数差值从所述当前批次的训练样本中，选取所述第一训练样本，包括：从所述当前批次的训练样本中，选取所述分数差值大于设定阈值的训练样本，作为所述第一训练样本；或者，对所述当前批次的训练样本中训练样本，按照所述分数差值进行降序排序，选取排序靠前的部分训练样本，作为所述第一训练样本。4.根据权利要求1
‑
3中任一项所述的方法，其中，所述根据所述降噪样本图像的第一表示向量和所述样本文本的第二表示向量，得到第一文图对齐分数，包括：对所述降噪样本图像进行图像编码，得到所述第一表示向量；基于文图对齐模型根据所述第一表示向量和所述第二表示向量，对所述降噪样本图像和所述样本文本进行相关性评分，得到所述第一文图对齐分数。5.根据权利要求4所述的方法，其中，所述得到所述第一文图对齐分数之后，还包括：根据所述样本文本与所述原始样本图像之间的第二文图对齐分数和所述第一文图对齐分数，得到所述文图对齐模型的第二损失函数；基于所述第二损失函数，对所述文图对齐模型进行调整；使用下一批次的训练样本对调整后的文图对齐模型继续训练。6.根据权利要求1
‑
3中任一项所述的方法，其中，所述方法还包括：基于高斯噪声，对所述样本文本的原始样本图像进行加噪，得到所述样本文本对应的所述加噪样本图像。7.根据权利要求1
‑
3中任一项所述的方法，其中，所述由文生图扩散模型根据样本文本对加噪样本图像进行降噪处理，生成降噪样本图像，包括：将所述样本文本和所述加噪样本图像输入所述文生图扩散模型中，由所述文生图扩散模型中的文本编码器，对所述样本文本进行文本编码，生成所述第二表示向量；由所述文生图扩散模型中的多个文生图层，基于所述第二表示向量对所述加噪样本图像进行逐层降噪，得到所述降噪样本图像。
8.一种基于文本的图像生成方法，其中，所述方法包括：获取目标文本；将所述目标文本输入目标文生图扩散模型中，以输出所述目标文本对应的目标图像，其中，所述目标文生图扩散模型为采用如权利要求1
‑
7中任一项所述的训练方法得到的模型。9.一种文生图扩散模型的训练装置，其中，所述装置包括：降噪模块，用于由文生图扩散模型根据样本文本对加噪样本图像进行降噪处理，生成降噪样本图像，所述样本文本和所述加噪样本图像为一组训练样本；选取模块，用于根据所述降噪样本图像的第一表示向量和所述样本文本...

【专利技术属性】
技术研发人员：余欣彤，刘佳祥，冯仕堃，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人