图片生成方法及装置、文生图模型训练方法及装置制造方法及图纸

技术编号：42723009 阅读：22 留言：0更新日期：2024-09-13 12:09

本申请实施例揭示了图片生成方法及装置、文生图模型训练方法及装置。该方法包括：获取用于引导生成图片的引导文本，以及用于表征待生成图片对应的初始噪声信息的潜空间向量；对所述引导文本进行语义提取，得到文本语义向量；将所述文本语义向量和所述潜空间向量输入训练后的文生图模型，所述训练后的文生图模型包含有通过具有共同属性的多张参考图片对训练前的文生图模型进行训练得到的图片属性引导参数；接收所述训练后的文生图模型输出的目标图片，所述目标图片是根据所述文本语义向量和所述图片属性引导参数，对所述潜空间向量进行去噪处理，并对去噪后的潜空间向量进行解码处理得到的。本申请的实施例能够使得文生图模型的应用更加便捷。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，具体涉及一种图片生成方法及装置、文生图模型训练方法及装置。

技术介绍

1、文生图（text-to-image generation）技术是指利用深度学习模型将文本描述转换为相应的图片的人工智能技术，该深度学习模型一般称为文生图模型。文生图技术结合了自然语言处理和计算机视觉的能力，使得用户可以通过输入描述性的文字来生成符合描述的图片。

2、在相关技术中，文生图模型仍需要收集大批量图片进行模型训练，导致文生图技术的应用仍需要消耗较多的计算资源，并且耗时较大，进而导致文生图技术的应用还缺乏便捷性。

技术实现思路

1、为解决上述技术问题，本申请的实施例提供了图片生成方法及装置、文生图模型训练方法及装置、电子设备、计算机可读存储介质和计算机程序产品。本申请的实施例不需要收集大量图片进行模型训练，能够大幅度降低文本图技术的应用耗时，使得文生图技术的应用更加便捷。

2、本申请实施例的一个方面，提供了一种图片生成方法，该方法包括：获取用于引导生成图片的引导文本，...

【技术保护点】

1.一种图片生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述训练后的文生图模型和所述训练前的文生图模型均包括去噪网络和解码网络；

3.根据权利要求2所述的方法，其特征在于，通过如下步骤对所述训练前的文生图模型进行训练，以得到所述训练后的文生图模型：

4.根据权利要求3所述的方法，其特征在于，所述属性交叉注意力网络层包括依次连接的属性交叉注意力子层和自注意力网络子层；

5.根据权利要求3所述的方法，其特征在于，所述训练前的文生图模型还包括图片属性提取网络，所述图片属性提取网络包括依次连接多个属性提取子块；<...

【技术特征摘要】

1.一种图片生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述训练后的文生图模型和所述训练前的文生图模型均包括去噪网络和解码网络；

3.根据权利要求2所述的方法，其特征在于，通过如下步骤对所述训练前的文生图模型进行训练，以得到所述训练后的文生图模型：

4.根据权利要求3所述的方法，其特征在于，所述属性交叉注意力网络层包括依次连接的属性交叉注意力子层和自注意力网络子层；

5.根据权利要求3所述的方法，其特征在于，所述训练前的文生图模型还包括图片属性提取网络，所述图片属性提取网络包括依次连接多个属性提取子块；

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求5所述的方法，其特征在于，所述图片属性提取网络还包括多个特征编码网络，每个属性提取子块与至少一个特征编码网络连接；所述特征编码网络用于对输入的基础图片或者条件图片执行特征编码处理，并将得到的特征向量输出至相连接的属性提取子块。

8.根据权利要求7所述的方法，其特征在于，每个属性提取子块包括依次连接的特征映射网络层、第一自注意力网络层和第二自注意力网络层；用于输入所述基础图片的特征编码网络与第一个属性提取子块中的特...

【专利技术属性】
技术研发人员：冯鑫，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人