图像生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：41125023 阅读：32 留言：0更新日期：2024-04-30 17:52

本公开涉及计算机视觉领域，提出一种图像生成方法、装置、电子设备及存储介质。所述方法应用于扩散模型，包括：响应于输入的第一文本数据，获取第一噪声数据；按照预设使用顺序，使用扩散模型中的第一采样器和第二采样器对第一噪声数据进行X次去噪，生成第一图像，第一图像与第一文本数据相对应，其中，M＜X＜N，N为单独采用第一采样器进行去噪以生成图像所需的次数，M为单独采用第二采样器进行去噪以生成图像所需的次数，每次去噪使用第一采样器和第二采样器中的一个。本公开实施例的图像生成方法通过对两种采样器的使用顺序进行控制，可以提高图像生成效率，且生成的图像的内容和质量与较高，从而能实现图像生成质量和效率的兼顾。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及计算机视觉领域，尤其涉及一种图像生成方法、装置、电子设备及存储介质。

技术介绍

1、作为人工智能生成内容（artificial intelligence generated content，aigc）的重要组成部分，文本生图（text-to-image generation）正受到与日俱增的关注和应用，即根据用户输入的文本描述，由计算机模型输出与之对应的图像。扩散模型（diffusionmodel）由于其优越的图像生成质量，逐步成为了文本生图领域的主流解决方案。

2、扩散模型使用海量图文对（image-text pairs）数据进行训练，通过对真实图像进行多次加噪处理，即在像素空间或特征空间中叠加随机噪声，从而得到完全随机的噪声数据；在此基础上，将真实图像配对的文本数据映射为去噪的控制条件，基于扩散模型进行相同次数的去噪处理，从而恢复出原始的真实图像。训练收敛之后，扩散模型即可对于任意文本数据，以任意完全随机噪声数据为起点，通过指定次数的去噪处理，输出高质量且符合文本数据的语义的图像。

3、现有技术的扩...

【技术保护点】

1.一种图像生成方法，其特征在于，所述方法应用于扩散模型，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，对所述第一噪声数据进行X次去噪时，第1次去噪的输入包括所述第一噪声数据，第i次去噪的输入包括第i-1次去噪的输出，第X次去噪的输出作为所述第一图像，1＜i≤X，i是整数。

3.根据权利要求2所述的方法，其特征在于，第i次去噪的输入还包括第i次去噪对应的图像生成程度指标，

4.根据权利要求3所述的方法，其特征在于，第X次去噪对应的图像生成程度指标的数值为1，图像生成程度指标的初始值为T，T是大于N的整数；

5.根据权利要求1所述...

【技术特征摘要】

1.一种图像生成方法，其特征在于，所述方法应用于扩散模型，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，对所述第一噪声数据进行x次去噪时，第1次去噪的输入包括所述第一噪声数据，第i次去噪的输入包括第i-1次去噪的输出，第x次去噪的输出作为所述第一图像，1＜i≤x，i是整数。

3.根据权利要求2所述的方法，其特征在于，第i次去噪的输入还包括第i次去噪对应的图像生成程度指标，

4.根据权利要求3所述的方法，其特征在于，第x次去噪对应的图像生成程度指标的数值为1，图像生成程度指标的初始值为t，t是大于n的整数；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，...

【专利技术属性】
技术研发人员：请求不公布姓名，
申请(专利权)人：摩尔线程智能科技北京有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人