System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 图像生成方法、装置、电子设备及存储介质制造方法及图纸_技高网

图像生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:41125023 阅读:4 留言:0更新日期:2024-04-30 17:52
本公开涉及计算机视觉领域,提出一种图像生成方法、装置、电子设备及存储介质。所述方法应用于扩散模型,包括:响应于输入的第一文本数据,获取第一噪声数据;按照预设使用顺序,使用扩散模型中的第一采样器和第二采样器对第一噪声数据进行X次去噪,生成第一图像,第一图像与第一文本数据相对应,其中,M<X<N,N为单独采用第一采样器进行去噪以生成图像所需的次数,M为单独采用第二采样器进行去噪以生成图像所需的次数,每次去噪使用第一采样器和第二采样器中的一个。本公开实施例的图像生成方法通过对两种采样器的使用顺序进行控制,可以提高图像生成效率,且生成的图像的内容和质量与较高,从而能实现图像生成质量和效率的兼顾。

【技术实现步骤摘要】

本公开涉及计算机视觉领域,尤其涉及一种图像生成方法、装置、电子设备及存储介质


技术介绍

1、作为人工智能生成内容(artificial intelligence generated content,aigc)的重要组成部分,文本生图(text-to-image generation)正受到与日俱增的关注和应用,即根据用户输入的文本描述,由计算机模型输出与之对应的图像。扩散模型(diffusionmodel)由于其优越的图像生成质量,逐步成为了文本生图领域的主流解决方案。

2、扩散模型使用海量图文对(image-text pairs)数据进行训练,通过对真实图像进行多次加噪处理,即在像素空间或特征空间中叠加随机噪声,从而得到完全随机的噪声数据;在此基础上,将真实图像配对的文本数据映射为去噪的控制条件,基于扩散模型进行相同次数的去噪处理,从而恢复出原始的真实图像。训练收敛之后,扩散模型即可对于任意文本数据,以任意完全随机噪声数据为起点,通过指定次数的去噪处理,输出高质量且符合文本数据的语义的图像。

3、现有技术的扩散模型使用采样器对噪声数据进行去噪。生成的图像质量较好的采样器的去噪次数通常是较大的,因此图像生成效率较低。去噪次数少、图像生成效率较高的采样器生成的图像质量又比较差。因此现有技术的扩散模型尚不能实现图像生成效果和效率的兼顾。


技术实现思路

1、有鉴于此,本公开提出了一种图像生成方法、装置、电子设备及存储介质。本公开实施例的图像生成方法使用第一采样器和第二采样器对噪声数据进行去噪,通过对两种采样器的使用顺序进行控制,使得生成图像需要的去噪次数低于两种采样器中去噪次数更高的第一采样器,提高图像生成效率,且生成的图像的内容和质量与较高,从而能实现图像生成质量和效率的兼顾。

2、根据本公开的一方面,提供了一种图像生成方法,所述方法应用于扩散模型,所述方法包括:响应于输入的第一文本数据,获取第一噪声数据,所述第一噪声数据为随机噪声数据;按照预设使用顺序,使用所述扩散模型中的第一采样器和第二采样器对所述第一噪声数据进行x次去噪,生成第一图像,所述第一图像与所述第一文本数据相对应,其中,m<x<n,n为单独采用所述第一采样器进行去噪以生成图像所需的次数,m为单独采用所述第二采样器进行去噪以生成图像所需的次数,每次去噪使用所述第一采样器和所述第二采样器中的一个,以及由所述第一文本数据映射得到的控制条件;其中,在所述扩散模型训练过程中,采用所述预设使用顺序生成的图像与基准图像的相似度大于第一阈值,且图像质量高于与所述基准图像的相似度大于第一阈值的、采用其他使用顺序生成的图像。

3、在一种可能的实现方式中,对所述第一噪声数据进行x次去噪时,第1次去噪的输入包括所述第一噪声数据,第i次去噪的输入包括第i-1次去噪的输出,第x次去噪的输出作为所述第一图像,1<i≤x,i是整数。

4、在一种可能的实现方式中,第i次去噪的输入还包括第i次去噪对应的图像生成程度指标,所述按照预设使用顺序,使用所述扩散模型中的第一采样器和第二采样器对所述第一噪声数据进行x次去噪,包括:第i次去噪时,将第i-1次去噪的输出和第i次去噪对应的图像生成程度指标输入第i次去噪使用的采样器,所述采样器根据第i-1次去噪的输出和第i次去噪对应的图像生成程度指标预测第i-1次去噪的输出包括的无效数据,对第i-1次去噪的输出和预测的无效数据作差,得到第i次去噪的输出;其中,第i次去噪使用的采样器为所述第一采样器或所述第二采样器。

5、在一种可能的实现方式中,第x次去噪对应的图像生成程度指标的数值为1,图像生成程度指标的初始值为t,t是大于n的整数;第i次去噪使用所述第一采样器时,第i次去噪对应的图像生成程度指标与第i+1次去噪对应的图像生成程度指标之差等于t/n;第i次去噪使用所述第二采样器时,第i次去噪对应的图像生成程度指标与第i+1次去噪对应的图像生成程度指标之差等于t/m。

6、在一种可能的实现方式中,所述方法还包括:在对所述扩散模型进行训练,以确定所述预设使用顺序的过程中,响应于输入的第二文本数据,获取第二噪声数据,所述第二噪声数据为随机噪声数据;确定使用所述第一采样器和所述第二采样器去噪x次以生成图像时,所述第一采样器和所述第二采样器的每一种使用顺序,每次去噪使用所述第一采样器和所述第二采样器中的一个,以及由所述第二文本数据映射得到的控制条件;按照每一种使用顺序,对所述第二噪声数据进行x次去噪,生成每一种使用顺序对应的第二图像;单独使用所述第一采样器对所述第二噪声数据进行n次去噪,生成所述基准图像;确定每一第二图像与所述基准图像的相似度指标,以及每一第二图像的质量指标;将相似度指标大于第一阈值的第二图像中、质量指标最大的第二图像所对应的使用顺序,确定为预设使用顺序。

7、在一种可能的实现方式中,在每一种使用顺序下,所述第一采样器的使用次数与n的比值作为第一比值,所述第二采样器的使用次数与m的比值作为第二比值,所述第一比值与所述第二比值之和等于1。

8、根据本公开的另一方面,提供了一种图像生成装置,所述装置应用于扩散模型,所述装置包括:第一获取模块,用于响应于输入的第一文本数据,获取第一噪声数据,所述第一噪声数据为随机噪声数据;第一去噪模块,用于按照预设使用顺序,使用所述扩散模型中的第一采样器和第二采样器对所述第一噪声数据进行x次去噪,生成第一图像,所述第一图像与所述第一文本数据相对应,其中,m<x<n,n为单独采用所述第一采样器进行去噪以生成图像所需的次数,m为单独采用所述第二采样器进行去噪以生成图像所需的次数,每次去噪使用所述第一采样器和所述第二采样器中的一个,以及由所述第一文本数据映射得到的控制条件;其中,在所述扩散模型训练过程中,采用所述预设使用顺序生成的图像与基准图像的相似度大于第一阈值,且图像质量高于与所述基准图像的相似度大于第一阈值的、采用其他使用顺序生成的图像。

9、在一种可能的实现方式中,对所述第一噪声数据进行x次去噪时,第1次去噪的输入包括所述第一噪声数据,第i次去噪的输入包括第i-1次去噪的输出,第x次去噪的输出作为所述第一图像,1<i≤x,i是整数。

10、在一种可能的实现方式中,第i次去噪的输入还包括第i次去噪对应的图像生成程度指标,所述按照预设使用顺序,使用所述扩散模型中的第一采样器和第二采样器对所述第一噪声数据进行x次去噪,包括:第i次去噪时,将第i-1次去噪的输出和第i次去噪对应的图像生成程度指标输入第i次去噪使用的采样器,所述采样器根据第i-1次去噪的输出和第i次去噪对应的图像生成程度指标预测第i-1次去噪的输出包括的无效数据,对第i-1次去噪的输出和预测的无效数据作差,得到第i次去噪的输出;其中,第i次去噪使用的采样器为所述第一采样器或所述第二采样器。

11、在一种可能的实现方式中,第x次去噪对应的图像生成程度指标的数值为1,图像生成程度指标的初始值为t,t是大于n的整数;第i本文档来自技高网...

【技术保护点】

1.一种图像生成方法,其特征在于,所述方法应用于扩散模型,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,对所述第一噪声数据进行X次去噪时,第1次去噪的输入包括所述第一噪声数据,第i次去噪的输入包括第i-1次去噪的输出,第X次去噪的输出作为所述第一图像,1<i≤X,i是整数。

3.根据权利要求2所述的方法,其特征在于,第i次去噪的输入还包括第i次去噪对应的图像生成程度指标,

4.根据权利要求3所述的方法,其特征在于,第X次去噪对应的图像生成程度指标的数值为1,图像生成程度指标的初始值为T,T是大于N的整数;

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,在每一种使用顺序下,所述第一采样器的使用次数与N的比值作为第一比值,所述第二采样器的使用次数与M的比值作为第二比值,所述第一比值与所述第二比值之和等于1。

7.一种图像生成装置,其特征在于,所述装置应用于扩散模型,所述装置包括:

8.一种电子设备,其特征在于,包括:

9.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至6中任意一项所述的方法。

10.一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,其特征在于,当所述计算机可读代码在电子设备的处理器中运行时,所述电子设备中的处理器执行权利要求1至6中任意一项所述的方法。

...

【技术特征摘要】

1.一种图像生成方法,其特征在于,所述方法应用于扩散模型,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,对所述第一噪声数据进行x次去噪时,第1次去噪的输入包括所述第一噪声数据,第i次去噪的输入包括第i-1次去噪的输出,第x次去噪的输出作为所述第一图像,1<i≤x,i是整数。

3.根据权利要求2所述的方法,其特征在于,第i次去噪的输入还包括第i次去噪对应的图像生成程度指标,

4.根据权利要求3所述的方法,其特征在于,第x次去噪对应的图像生成程度指标的数值为1,图像生成程度指标的初始值为t,t是大于n的整数;

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:摩尔线程智能科技北京有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1