图像生成及扩散模型训练方法、电子设备及存储介质技术

技术编号:38247093 阅读:10 留言:0更新日期:2023-07-25 18:07
本申请实施例提供了一种图像生成及扩散模型训练方法、电子设备及存储介质,其中的一种图像生成方法包括:获取用于生成图像的文本数据及所述文本数据中的细节描述数据;确定所述文本数据对应的初始图像和所述细节描述数据对应的细节图像;使用所述细节图像,对以所述初始图像为基础的多次图像去噪处理过程进行引导,以生成与所述文本数据和所述细节描述数据相匹配的图像。通过本申请实施例,使得基于文本生成的图像能够与文本描述准确匹配。于文本生成的图像能够与文本描述准确匹配。于文本生成的图像能够与文本描述准确匹配。

【技术实现步骤摘要】
图像生成及扩散模型训练方法、电子设备及存储介质


[0001]本申请实施例涉及人工智能
,尤其涉及一种图像生成方法、一种扩散模型训练方法、电子设备及计算机存储介质。

技术介绍

[0002]文本生成图像是使用人工智能技术将文本转换为图像的过程,其可以根据给定文本生成符合描述的真实图像,在诸如视觉推理、图像编辑、视频游戏、动画制作和计算机辅助设计等方面得到了广泛应用。
[0003]目前,一种基于文本生成图像的方式是基于扩散模型的方式。扩散模型是图像生成模型的一种,其学习由于噪声引起的信息衰减,然后使用学习到的模式来生成图像,一种上述过程的示意如图1所示,其中,扩散模型利用正向过程的图像加噪和逆向过程的图像去噪,以去噪后图像与原图像的差异为依据,来实现对模型的训练。而在模型的推理阶段,则可直接利用扩散模型的逆向过程实现图像的生成。
[0004]但是,目前的这种方式生成的图像较为粗糙,更关注于表征图像中目标对象的类别信息,而忽略了细粒度的细节信息,无法生成可准确表征文本中的细粒度细节的图像,导致生成的图像与文本描述的图像不能准确匹配。

技术实现思路

[0005]有鉴于此,本申请实施例提供一种图像生成及扩散模型训练方案,以至少部分解决上述问题。
[0006]根据本申请实施例的第一方面,提供了一种图像生成方法,包括:获取用于生成图像的文本数据及所述文本数据中的细节描述数据;确定所述文本数据对应的初始图像和所述细节描述数据对应的细节图像;使用所述细节图像,对以所述初始图像为基础的多次图像去噪处理过程进行引导,以生成与所述文本数据和所述细节描述数据相匹配的图像。
[0007]根据本申请实施例的第二方面,提供了另一种图像生成方法,包括:通过交互界面展示用于生成图像的文本数据,并接收输入的所述文本数据中的细节描述数据;将所述文本数据及所述细节描述数据发送至后台;接收并展示所述后台返回的、与所述文本数据和所述细节描述数据相匹配的图像,其中,所述后台通过确定所述文本数据对应的初始图像和所述细节描述数据对应的细节图像;并使用所述细节图像,对以所述初始图像为基础的多次图像去噪处理过程进行引导,生成与所述文本数据和所述细节描述数据相匹配的图像。
[0008]根据本申请实施例的第三方面,提供了又一种图像生成方法,包括:通过交互界面展示待修改的虚拟三维人像,及所述虚拟三维人像对应的、用于描述所述虚拟三维人像的文本数据;接收输入的、基于所述文本数据中确定的细节描述数据;至少将所述细节描述数据发送至后台,并接收所述后台返回的、根据所述细节描述数据修改后的虚拟三维人像;其中,所述后台通过确定所述细节描述数据对应的细节图像;并使用所述细节图像,对以所述
待修改的虚拟三维人像为基础的多次图像去噪处理过程进行引导,生成所述修改后的虚拟三维人像。
[0009]根据本申请实施例的第四方面,提供了一种扩散模型训练方法,包括:获取用于对扩散模型进行训练的训练图像样本;获取与所述训练图像样本相似的参考图像样本,和获取所述参考图像样本对应的加噪参考样本;在所述扩散模型的逆向过程中,以所述扩散模型的正向过程生成的噪声图像样本为基础,使用所述加噪参考样本,对所述逆向过程的图像去噪处理进行引导,生成预测图像;根据所述预测图像和所述训练图像样本的差异,对所述扩散模型进行训练。
[0010]根据本申请实施例的第五方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面至第四方面所述方法中的任一方法对应的操作。
[0011]根据本申请实施例的第六方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面至第四方面所述方法中的任一方法。
[0012]根据本申请实施例提供的方案,在通过图像去噪方式,基于文本生成图像时,会根据文本中的细节信息,即文本数据中的细节描述数据,以该细节信息对应的细节图像作为引导,通过去噪处理过程来对粗粒度的初始图像进行细化,从而由粗到细地生成不仅符合文本数据的主要表达,而且符合文本数据的细节表达的图像。具体地,在以细节图像为引导时,初始图像中对应的细节部分会被引导至尽可能接近于细节图像,而细节图像可有效对应于文本数据中的细节描述数据,因此,通过细节图像的引导,使得最终生成的图像可更为准确地反映文本数据所描述的图像信息,尤其能够准确反映文本数据中对图像的细粒度细节的描述,从而使得生成的图像能够与文本描述准确匹配。
附图说明
[0013]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0014]图1为相关技术中的一种扩散模型的数据处理过程示意图;
[0015]图2A为适用本申请实施例方案的示例性系统的示意图;
[0016]图2B为本申请实施例中的一种CLIP模型结构示意图;
[0017]图2C为本申请实施例中的一种扩散模型的示意图;
[0018]图3A为根据本申请实施例一的一种扩散模型训练方法的步骤流程图;
[0019]图3B为图3A所示实施例中的一种扩散模型训练过程的示意图;
[0020]图4A为根据本申请实施例二的一种图像生成方法的步骤流程图;
[0021]图4B为图4A所示实施例中的一种场景示例的示意图;
[0022]图5A为根据本申请实施例三的一种图像生成方法的步骤流程图;
[0023]图5B为图5A所示实施例中的一种场景示例的示意图;
[0024]图6A为根据本申请实施例四的一种图像生成方法的步骤流程图;
[0025]图6B为图6A所示实施例中的一种场景示例的示意图;
[0026]图7为根据本申请实施例五的一种电子设备的结构示意图。
具体实施方式
[0027]为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
[0028]下面结合本申请实施例附图进一步说明本申请实施例具体实现。
[0029]图2A示出了一种适用本申请实施例方案的示例性系统。如图2A所示,该系统100可以包括云服务端102、通信网络104和/或一个或多个用户设备106,图2A中示例为多个用户设备。
[0030]云服务端102可以是用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的设备,包括但不限于分布式存储系统设备、服务器集群本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像生成方法,包括:获取用于生成图像的文本数据及所述文本数据中的细节描述数据;确定所述文本数据对应的初始图像和所述细节描述数据对应的细节图像;使用所述细节图像,对以所述初始图像为基础的多次图像去噪处理过程进行引导,以生成与所述文本数据和所述细节描述数据相匹配的图像。2.根据权利要求1所述的方法,其中,所述使用所述细节图像,对以所述初始图像为基础的多次图像去噪处理过程进行引导,包括:在所述多次图像去噪处理过程的至少部分图像去噪处理中,针对每次图像去噪处理,根据前次图像去噪处理获得的去噪图像和所述细节图像之间的差异,确定对应的语义引导梯度;根据所述语义引导梯度,引导所述去噪图像的本次去噪处理;其中,所述多次图像去噪处理过程的初始输入为所述初始图像。3.根据权利要求2所述的方法,其中,所述根据所述语义引导梯度,引导所述去噪图像的本次去噪处理,包括:将所述语义引导梯度和前次图像去噪处理获得的所述去噪图像,作为本次去噪处理的输入,基于所述文本数据对应的第一图像描述特征和所述细节描述数据对应的第二图像描述特征,对所述去噪图像的去噪处理进行引导。4.根据权利要求1

3任一项所述的方法,其中,所述确定所述文本数据对应的初始图像和所述细节描述数据对应的细节图像,包括:基于所述文本数据对应的第一图像描述特征,获取图像语义特征与所述第一图像描述特征相匹配的图像,作为所述初始图像;以及,基于所述细节描述数据对应的第二图像描述特征,获取图像语义特征与所述第二图像描述特征相匹配的图像,作为所述细节图像。5.根据权利要求4所述的方法,其中,所述基于所述文本数据对应的第一图像描述特征,获取图像语义特征与所述第一图像描述特征相匹配的图像,作为所述初始图像,包括:通过训练完成的、对比文本

图像预训练模型,基于所述文本数据对应的第一图像描述特征和多个图像的图像语义特征,从所述多个图像中,获取图像语义特征与所述第一图像描述特征相匹配的图像,作为所述初始图像;所述基于所述细节描述数据对应的第二图像描述特征,获取图像语义特征与所述第二图像描述特征相匹配的图像,作为所述细节图像,包括:通过所述训练完成的、对比文本

图像预训练模型,基于所述细节描述数据对应的第二图像描述特征和多个图像的图像语义特征,从所述多个图像中,获取图像语义特征与所述第二图像描述特征相匹配的图像,作为所述细节图像。6.根据权利要求5所述的方法,其中,所述使用所述细节图像,对以所述初始图像为基础的多次图像去噪处理过程进行引导,包括:通过训练完成的扩散模型,使用由所述对比文本

图像预训练模型获得的细节图像,对以所述初始图像为基础的多次图像去噪处理过程进行引导。7.根据权利要求6所述的方法,其中,所述通过训练完成的扩散模型,使用由所述对比文本

图像预训练模型获得的细节图像,对以所述初始图像为基础的多次图像去噪处理过
程进行引导,包括:确定训练完成的扩散模型,所述扩散模型包括多个去噪层;将所述初始图像输入所述扩散模型,以通过所述扩散模型的多个去噪层,基...

【专利技术属性】
技术研发人员:孙建新黄梁华张迎亚沈宇军赵德丽周靖人
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1