图像生成及扩散模型训练方法、电子设备及存储介质技术

技术编号：38247093 阅读：10 留言：0更新日期：2023-07-25 18:07

本申请实施例提供了一种图像生成及扩散模型训练方法、电子设备及存储介质，其中的一种图像生成方法包括：获取用于生成图像的文本数据及所述文本数据中的细节描述数据；确定所述文本数据对应的初始图像和所述细节描述数据对应的细节图像；使用所述细节图像，对以所述初始图像为基础的多次图像去噪处理过程进行引导，以生成与所述文本数据和所述细节描述数据相匹配的图像。通过本申请实施例，使得基于文本生成的图像能够与文本描述准确匹配。于文本生成的图像能够与文本描述准确匹配。于文本生成的图像能够与文本描述准确匹配。

全部详细技术资料下载

【技术实现步骤摘要】
图像生成及扩散模型训练方法、电子设备及存储介质

[0001]本申请实施例涉及人工智能
，尤其涉及一种图像生成方法、一种扩散模型训练方法、电子设备及计算机存储介质。

技术介绍

[0002]文本生成图像是使用人工智能技术将文本转换为图像的过程，其可以根据给定文本生成符合描述的真实图像，在诸如视觉推理、图像编辑、视频游戏、动画制作和计算机辅助设计等方面得到了广泛应用。
[0003]目前，一种基于文本生成图像的方式是基于扩散模型的方式。扩散模型是图像生成模型的一种，其学习由于噪声引起的信息衰减，然后使用学习到的模式来生成图像，一种上述过程的示意如图1所示，其中，扩散模型利用正向过程的图像加噪和逆向过程的图像去噪，以去噪后图像与原图像的差异为依据，来实现对模型的训练。而在模型的推理阶段，则可直接利用扩散模型的逆向过程实现图像的生成。
[0004]但是，目前的这种方式生成的图像较为粗糙，更关注于表征图像中目标对象的类别信息，而忽略了细粒度的细节信息，无法生成可准确表征文本中的细粒度细节的图像，导致生成的图像与文本描述的图像不能准确匹配。

技术实现思路

[0005]有鉴于此，本申请实施例提供一种图像生成及扩散模型训练方案，以至少部分解决上述问题。
[0006]根据本申请实施例的第一方面，提供了一种图像生成方法，包括：获取用于生成图像的文本数据及所述文本数据中的细节描述数据；确定所述文本数据对应的初始图像和所述细节描述数据对应的细节图像；使用所述细节图像，对以所述初始图像为基础的多次图像...

【技术保护点】

【技术特征摘要】
1.一种图像生成方法，包括：获取用于生成图像的文本数据及所述文本数据中的细节描述数据；确定所述文本数据对应的初始图像和所述细节描述数据对应的细节图像；使用所述细节图像，对以所述初始图像为基础的多次图像去噪处理过程进行引导，以生成与所述文本数据和所述细节描述数据相匹配的图像。2.根据权利要求1所述的方法，其中，所述使用所述细节图像，对以所述初始图像为基础的多次图像去噪处理过程进行引导，包括：在所述多次图像去噪处理过程的至少部分图像去噪处理中，针对每次图像去噪处理，根据前次图像去噪处理获得的去噪图像和所述细节图像之间的差异，确定对应的语义引导梯度；根据所述语义引导梯度，引导所述去噪图像的本次去噪处理；其中，所述多次图像去噪处理过程的初始输入为所述初始图像。3.根据权利要求2所述的方法，其中，所述根据所述语义引导梯度，引导所述去噪图像的本次去噪处理，包括：将所述语义引导梯度和前次图像去噪处理获得的所述去噪图像，作为本次去噪处理的输入，基于所述文本数据对应的第一图像描述特征和所述细节描述数据对应的第二图像描述特征，对所述去噪图像的去噪处理进行引导。4.根据权利要求1
‑
3任一项所述的方法，其中，所述确定所述文本数据对应的初始图像和所述细节描述数据对应的细节图像，包括：基于所述文本数据对应的第一图像描述特征，获取图像语义特征与所述第一图像描述特征相匹配的图像，作为所述初始图像；以及，基于所述细节描述数据对应的第二图像描述特征，获取图像语义特征与所述第二图像描述特征相匹配的图像，作为所述细节图像。5.根据权利要求4所述的方法，其中，所述基于所述文本数据对应的第一图像描述特征，获取图像语义特征与所述第一图像描述特征相匹配的图像，作为所述初始图像，包括：通过训练完成的、对比文本
‑
图像预训练模型，基于所述文本数据对应的第一图像描述特征和多个图像的图像语义特征，从所述多个图像中，获取图像语义特征与所述第一图像描述特征相匹配的图像，作为所述初始图像；所述基于所述细节描述数据对应的第二图像描述特征，获取图像语义特征与所述第二图像描述特征相匹配的图像，作为所述细节图像，包括：通过所述训练完成的、对比文本
‑
图像预训练模型，基于所述细节描述数据对应的第二图像描述特征和多个图像的图像语义特征，从所述多个图像中，获取图像语义特征与所述第二图像描述特征相匹配的图像，作为所述细节图像。6.根据权利要求5所述的方法，其中，所述使用所述细节图像，对以所述初始图像为基础的多次图像去噪处理过程进行引导，包括：通过训练完成的扩散模型，使用由所述对比文本
‑
图像预训练模型获得的细节图像，对以所述初始图像为基础的多次图像去噪处理过程进行引导。7.根据权利要求6所述的方法，其中，所述通过训练完成的扩散模型，使用由所述对比文本
‑
图像预训练模型获得的细节图像，对以所述初始图像为基础的多次图像去噪处理过
程进行引导，包括：确定训练完成的扩散模型，所述扩散模型包括多个去噪层；将所述初始图像输入所述扩散模型，以通过所述扩散模型的多个去噪层，基...

【专利技术属性】
技术研发人员：孙建新，黄梁华，张迎亚，沈宇军，赵德丽，周靖人，
申请(专利权)人：阿里巴巴达摩院杭州科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人