一种图像生成方法、装置、设备及介质制造方法及图纸

技术编号:38738528 阅读:22 留言:0更新日期:2023-09-08 23:24
本发明专利技术公开了一种图像生成方法、装置、设备及介质,应用于图像生成技术领域,包括:将第一输入数据输入至目标扩散模型进行推理,并在推理过程中获取每次迭代的输出结果;第一输入数据包括第一噪声和第一文本信息;基于相邻两次迭代的输出结果计算散度,得到散度序列;对所述散度序列进行分组以得到散度组,并依次对每个散度组对应的推理阶段中的目标扩散模型进行参数量化;推理阶段为散度组中各散度对应的迭代次数所对应的推理阶段;基于第二输入数据以及参数量化后的目标扩散模型生成图像;所述第二输入数据包括第二噪声和第二文本信息。能够解决模型推理速度慢的问题,提升模型推理速度,进而提升图像的生成效率。进而提升图像的生成效率。进而提升图像的生成效率。

【技术实现步骤摘要】
一种图像生成方法、装置、设备及介质


[0001]本专利技术涉及图像生成
,特别涉及一种图像生成方法、装置、设备及介质。

技术介绍

[0002]目前,利用扩散模型并基于文本信息生成图像已经成为一种常见的图像生成方式,在利用扩散模型生成图像的方案中,需要利用文本编码器把人类输入的文字串转换成机器能理解的数字信息,也即计算机能理解的某种数学表示,作为后续图片生成器的一个控制输入,进而生成图像,在整个过程中运算量是较大,同时扩散模型的采样速度比较慢,影响了模型推理速度,导致图像的生成效率较低。

技术实现思路

[0003]有鉴于此,本专利技术的目的在于提供一种图像生成方法、装置、设备及介质,能够提升模型推理速度,进而提升图像的生成效率。其具体方案如下:第一方面,本专利技术公开了一种图像生成方法,包括:将第一输入数据输入至目标扩散模型进行推理,并在推理过程中获取每次迭代的输出结果;所述第一输入数据包括第一噪声和第一文本信息;基于相邻两次迭代的输出结果计算散度,得到散度序列;对所述散度序列进行分组以得到散度组,并依次对每个散度组对应的推理阶段中的目标扩散模型进行参数量化;所述推理阶段为散度组中各散度对应的迭代次数所对应的推理阶段;基于第二输入数据以及参数量化后的目标扩散模型生成图像;所述第二输入数据包括第二噪声和第二文本信息。
[0004]可选的,所述基于相邻两次迭代的输出结果计算散度,包括:基于散度系数以及相邻两次迭代的输出结果计算散度;其中,所述散度系数随着迭代次数的演进而降低。
[0005]可选的,所述基于散度系数以及相邻两次迭代的输出结果计算散度,包括:基于迭代次数和自然指数确定散度系数;基于散度系数以及相邻两次迭代的输出结果计算散度。
[0006]可选的,所述基于相邻两次迭代的输出结果计算散度,包括:基于预设散度计算公式以及相邻两次迭代的输出结果计算散度;预设散度计算公式为:;其中,DL表示散度,t表示当前的迭代次数,P(x)表示上一次迭代的输出结果,Q(x)表示t次迭代的输出结果,1/e
t
表示t次迭代的散度系数。
[0007]可选的,对所述散度序列进行分组以得到散度组,包括:
基于自然裂点法确定所述散度序列的自然裂点;基于所述自然裂点对所述散度序列进行分组以得到散度组。
[0008]可选的,所述依次对每个散度组对应的推理阶段中的目标扩散模型进行参数量化,包括:基于不同的预设量化策略依次对每个散度组对应的推理阶段中的目标扩散模型进行参数量化。
[0009]可选的,所述对所述散度序列进行分组以得到散度组,包括:对所述散度序列进行分组,得到三个散度组;其中,第一散度组包括T至N次迭代对应的散度,第二散度组包括N

1到M次迭代对应的散度,第三散度组包括M

1至1次迭代的散度,其中,T大于N大于M。
[0010]可选的,所述基于不同的预设量化策略依次对每个散度组对应的推理阶段中的目标扩散模型进行参数量化,包括:基于第一量化策略对第一散度组对应的推理阶段中的目标扩散模型进行参数量化;基于第二量化策略对第二散度组对应的推理阶段中的目标扩散模型进行参数量化;基于第三量化策略对第三散度组对应的推理阶段中的目标扩散模型进行参数量化。
[0011]可选的,所述第一量化策略、所述第二量化策略以及所述第三量化策略对应的精度依次递增。
[0012]可选的,所述第一量化策略将模型参数量化为4至8比特表示指数、0至4比特表示小数的数据。
[0013]可选的,所述第二量化策略将模型参数量化为8比特表示指数、4至7比特表示小数的数据。
[0014]可选的,所述第三量化策略将模型参数量化为8比特表示指数、7至23比特表示小数的数据。
[0015]可选的,在所述将第一输入数据输入至目标扩散模型进行推理之前,还包括:生成均匀分布的噪声,得到第一噪声;获取第一文本信息,并将所述第一文本信息和所述第一噪声确定为第一输入数据。
[0016]可选的,将第一输入数据输入至目标扩散模型进行推理,并在推理过程中获取每次迭代的输出结果,包括:将第一输入数据多次输入至目标扩散模型进行推理,并在每次推理过程中获取每次迭代的输出结果。
[0017]可选的,所述基于相邻两次迭代的输出结果计算散度,得到散度序列,包括:计算多次推理过程中每次迭代的输出结果均值;基于相邻两次迭代的输出结果均值计算散度,得到散度序列。
[0018]可选的,目标扩散模型进行预推理的过程,包括:对所述第一噪声编码以得到查询矩阵,对所述第一文本信息编码以得到键矩阵和
值矩阵;基于预设多头注意力机制以及所述查询矩阵、所述键矩阵、所述值矩阵确定注意力,基于所述注意力以及U型网络模型进行去噪,得到潜变量,作为本次迭代的输出结果。
[0019]可选的,目标扩散模型中注意力计算公式为:;其中,A表示注意力,Q表示查询矩阵,K表示键矩阵,V表示值矩阵,δ表示离散余弦相似函数,h表示头数量,D表示张量的总维数,T表示转置。
[0020]可选的,h为D的1/2。
[0021]可选的,目标扩散模型为稳定扩散模型。
[0022]第二方面,本专利技术公开了一种图像生成装置,包括:推理模块,用于将第一输入数据输入至目标扩散模型进行推理,并在推理过程中获取每次迭代的输出结果;所述第一输入数据包括第一噪声和第一文本信息;散度计算模块,用于基于相邻两次迭代的输出结果计算散度,得到散度序列;散度分组模块,用于对所述散度序列进行分组以得到散度组;参数量化模块,用于依次对每个散度组对应的推理阶段中的目标扩散模型进行参数量化;所述推理阶段为散度组中各散度对应的迭代次数所对应的推理阶段;图像生成模块,用于基于第二输入数据以及参数量化后的目标扩散模型生成图像;所述第二输入数据包括第二噪声和第二文本信息。
[0023]第三方面,本专利技术公开了一种电子设备,包括存储器和处理器,其中:所述存储器,用于保存计算机程序;所述处理器,用于执行所述计算机程序,以实现前述的图像生成方法。
[0024]第四方面,本专利技术公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述的图像生成方法。
[0025]可见,本专利技术先将第一输入数据输入至目标扩散模型进行推理,并在推理过程中获取每次迭代的输出结果,所述第一输入数据包括第一噪声和第一文本信息,之后基于相邻两次迭代的输出结果计算散度,得到散度序列,对所述散度序列进行分组以得到散度组,并依次对每个散度组对应的推理阶段中的目标扩散模型进行参数量化;所述推理阶段为散度组中各散度对应的迭代次数所对应的推理阶段,最后基于第二输入数据以及参数量化后的目标扩散模型生成图像,所述第二输入数据包括第二噪声和第二文本信息。也即,本专利技术在利用扩散模型生成图像之前,先利用扩散模型进行预推理,得到每次迭代的输出结果,计算散度得到散度序列,基于对散度序列的分组实现了对模型推理过程按照迭代次数划分推理阶本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像生成方法,其特征在于,包括:将第一输入数据输入至目标扩散模型进行推理,并在推理过程中获取每次迭代的输出结果;所述第一输入数据包括第一噪声和第一文本信息;基于相邻两次迭代的输出结果计算散度,得到散度序列;对所述散度序列进行分组以得到散度组,并依次对每个散度组对应的推理阶段中的目标扩散模型进行参数量化;所述推理阶段为散度组中各散度对应的迭代次数所对应的推理阶段;基于第二输入数据以及参数量化后的目标扩散模型生成图像;所述第二输入数据包括第二噪声和第二文本信息。2.根据权利要求1所述的图像生成方法,其特征在于,所述基于相邻两次迭代的输出结果计算散度,包括:基于散度系数以及相邻两次迭代的输出结果计算散度;其中,所述散度系数随着迭代次数的演进而降低。3.根据权利要求2所述的图像生成方法,其特征在于,所述基于散度系数以及相邻两次迭代的输出结果计算散度,包括:基于迭代次数和自然指数确定散度系数;基于散度系数以及相邻两次迭代的输出结果计算散度。4.根据权利要求3所述的图像生成方法,其特征在于,所述基于相邻两次迭代的输出结果计算散度,包括:基于预设散度计算公式以及相邻两次迭代的输出结果计算散度;预设散度计算公式为:;其中,DL表示散度,t表示当前的迭代次数,P(x)表示上一次迭代的输出结果,Q(x)表示t次迭代的输出结果,1/e
t
表示t次迭代的散度系数。5.根据权利要求1所述的图像生成方法,其特征在于,对所述散度序列进行分组以得到散度组,包括:基于自然裂点法确定所述散度序列的自然裂点;基于所述自然裂点对所述散度序列进行分组以得到散度组。6.根据权利要求1所述的图像生成方法,其特征在于,所述依次对每个散度组对应的推理阶段中的目标扩散模型进行参数量化,包括:基于不同的预设量化策略依次对每个散度组对应的推理阶段中的目标扩散模型进行参数量化。7.根据权利要求6所述的图像生成方法,其特征在于,所述对所述散度序列进行分组以得到散度组,包括:对所述散度序列进行分组,得到三个散度组;其中,第一散度组包括T至N次迭代对应的散度,第二散度组包括N

1到M次迭代对应的散度,第三散度组包括M

1至1次迭代的散度,其中,T大于N大于M。
8.根据权利要求7所述的图像生成方法,其特征在于,所述基于不同的预设量化策略依次对每个散度组对应的推理阶段中的目标扩散模型进行参数量化,包括:基于第一量化策略对第一散度组对应的推理阶段中的目标扩散模型进行参数量化;基于第二量化策略对第二散度组对应的推理阶段中的目标扩散模型进行参数量化;基于第三量化策略对第三散度组对应的推理阶段中的目标扩散模型进行参数量化。9.根据权利要求8所述的图像生成方法,其特征在于,所述第一量化策略、所述第二量化策略以及所述第三量化策略对应的精度依次递增。10.根据权利要求8所述的图像生成方法,其特征在于,所述第一量化策略将模型参数量化为4至8比特表示指数、0...

【专利技术属性】
技术研发人员:黄伟朱克峰李兵兵戴钰桀王彦伟李仁刚
申请(专利权)人:浪潮北京电子信息产业有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1