图像生成方法、装置、设备及存储介质制造方法及图纸

技术编号：45044916 阅读：4 留言：0更新日期：2025-04-22 17:32

本申请公开了一种图像生成方法、装置、设备及存储介质，涉及人工智能技术领域。所述方法包括：获取人物信息、道具信息和提示文本，人物信息用于指示需要生成的输出图像中的人物所需具备的特征，道具信息用于指示输出图像中的道具所需具备的特征；根据人物信息、道具信息和提示文本，生成稳定扩散模型的输入信息和控制网络的输入信息；通过控制网络，根据控制网络的输入信息，生成控制网络的输出信息；通过稳定扩散模型，根据稳定扩散模型的输入信息和控制网络的输出信息，生成输出图像。本申请将人物信息、道具信息和提示文本作为图像生成模型的输入信息，对道具的姿态、位置、大小和纹理实现精细化控制，提高了输出图像的生成效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，特别涉及一种图像生成方法、装置、设备及存储介质。

技术介绍

1、游戏领域的人物自动化设计，旨在利用ai(artificial intelligence，人工智能)生成模型，根据给定的设计需求进行自动化的人物图片生成，包括人物主体和道具物件的联合生成。

2、相关技术中，采用基于稳定扩散模型(stable diffusion model，sd模型)的一种辅助性条件化控制模型(controlnet模型)，根据不同模式的输入条件如姿态图、分割图、深度图等，提取控制条件对应的特征信息，同输入稳定扩散模型的文本特征进行特征融合，生成条件控制后的图片。

3、然而，上述模型生成图片中的人物姿态得以精准控制，但人物所持道具的类型、大小、角度等多种不同因素只能通过文本提示进行粗粒度的调控，导致道具的生成效果较差。

技术实现思路

1、本申请实施例提供了一种图像生成方法、装置、设备及存储介质。所述技术方案如下：

2、根据本申请实施例的一个方面，提供了一种基于图像生成模型的图像生成方法，所述图像生成模型包括稳定扩散模型和控制网络，所述方法包括：

3、获取人物信息、道具信息和提示文本，所述人物信息用于指示需要生成的输出图像中的人物所需具备的特征，所述道具信息用于指示所述输出图像中的道具所需具备的特征，所述提示文本用于指示所述输出图像中的所述人物和所述道具之间的交互关系；

4、根据所述人物信息、所述道具信息和所述提示文本，生成所述稳

5、通过所述控制网络，根据所述控制网络的输入信息，生成所述控制网络的输出信息；

6、通过所述稳定扩散模型，根据所述稳定扩散模型的输入信息和所述控制网络的输出信息，生成所述输出图像。

7、根据本申请实施例的一个方面，提供了一种图像生成模型的训练方法，所述图像生成模型包括稳定扩散模型和控制网络，所述方法包括：

8、获取所述图像生成模型的训练样本集，所述训练样本集中包括至少一个图文对，每个所述图文对中包括具有匹配关系的一个标签文本和一个标签图像，所述标签文本用于指示所述标签图像中的人物和道具之间的交互关系，所述标签图像是包含所述人物和与所述人物具有交互关系的所述道具的图像；

9、获取所述标签图像中的人物信息和道具信息，所述人物信息用于指示所述人物的特征，所述道具信息用于指示所述道具的特征；

10、根据所述人物信息、所述道具信息和所述标签文本，生成所述稳定扩散模型的输入信息和所述控制网络的输入信息；

11、通过所述控制网络，根据所述控制网络的输入信息，生成所述控制网络的输出信息；

12、通过所述稳定扩散模型，根据所述稳定扩散模型的输入信息和所述控制网络的输出信息，生成预测图像；

13、根据所述预测图像和所述标签图像，对所述控制网络的参数进行调整，得到训练后的图像生成模型。

14、根据本申请实施例的一个方面，提供了一种基于图像生成模型的图像生成装置，所述图像生成模型包括稳定扩散模型和控制网络，所述装置包括：

15、信息获取模块，用于获取人物信息、道具信息和提示文本，所述人物信息用于指示需要生成的输出图像中的人物所需具备的特征，所述道具信息用于指示所述输出图像中的道具所需具备的特征，所述提示文本用于指示所述输出图像中的所述人物和所述道具之间的交互关系；

16、输入生成模块，用于根据所述人物信息、所述道具信息和所述提示文本，生成所述稳定扩散模型的输入信息和所述控制网络的输入信息；

17、控制输出模块，用于通过所述控制网络，根据所述控制网络的输入信息，生成所述控制网络的输出信息；

18、图像输出模块，用于通过所述稳定扩散模型，根据所述稳定扩散模型的输入信息和所述控制网络的输出信息，生成所述输出图像。

19、根据本申请实施例的一个方面，提供了一种图像生成模型的训练装置，所述图像生成模型包括稳定扩散模型和控制网络，所述装置包括：

20、样本集获取模块，用于获取所述图像生成模型的训练样本集，所述训练样本集中包括至少一个图文对，每个所述图文对中包括具有匹配关系的一个标签文本和一个标签图像，所述标签文本用于指示所述标签图像中的人物和道具之间的交互关系，所述标签图像是包含所述人物和与所述人物具有交互关系的所述道具的图像；

21、信息获取模块，用于获取所述标签图像中的人物信息和道具信息，所述人物信息用于指示所述人物的特征，所述道具信息用于指示所述道具的特征；

22、输入生成模块，用于根据所述人物信息、所述道具信息和所述标签文本，生成所述稳定扩散模型的输入信息和所述控制网络的输入信息；

23、控制输出模块，用于通过所述控制网络，根据所述控制网络的输入信息，生成所述控制网络的输出信息；

24、图像输出模块，用于通过所述稳定扩散模型，根据所述稳定扩散模型的输入信息和所述控制网络的输出信息，生成预测图像；

25、模型训练模块，用于根据所述预测图像和所述标签图像，对所述控制网络的参数进行调整，得到训练后的图像生成模型。

26、根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述基于图像生成模型的图像生成方法，或图像生成模型的训练方法。

27、根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述基于图像生成模型的图像生成方法，或图像生成模型的训练方法。

28、根据本申请实施例的一个方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序由处理器加载并执行以实现上述基于图像生成模型的图像生成方法，或图像生成模型的训练方法。

29、本申请实施例提供的技术方案可以带来如下有益效果：

30、通过将人物信息、道具信息和提示文本作为图像生成模型的输入信息，并根据人物信息、道具信息和提示文本生成稳定扩散模型的输入信息和控制网络的输入信息，从而将控制网络的输入信息作为控制条件与稳定扩散模型的输入信息相结合，使得提示文本中的文本特征、人物信息中的人物特征可以与道具信息中的道具特征灵活交互，从而可以生成包含指定人物姿态和指定道具姿态的输出图像，相较于相关技术中根据人物姿态图像和提示文本生成图像，而无法控制其中道具的生成效果，本申请提供的技术方案可以实现多目标的联合控制生成，并对道具的姿态、位置、大小和纹理实现精细化控制，提高了输出图像的生成效果和生成质量。

本文档来自技高网...

【技术保护点】

1.一种基于图像生成模型的图像生成方法，其特征在于，所述图像生成模型包括稳定扩散模型和控制网络，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述图像生成模型还包括文本编码器和特征提取器；

3.根据权利要求2所述的方法，其特征在于，所述特征提取器是用于从图像中提取特征的图像特征提取器，所述人物信息为人物图像，所述道具信息为道具图像；

4.根据权利要求2所述的方法，其特征在于，所述特征提取器是用于从图像中提取特征的图像特征提取器，所述人物信息为人物掩码，所述道具信息为道具掩码，所述人物掩码是用不同数值对所述输出图像中的人物区域和除所述人物区域外的其他区域进行区别表示的二值化掩码，所述道具掩码是用不同数值对所述输出图像中的道具区域和除所述道具区域外的其他区域进行区别表示的二值化掩码；

5.根据权利要求2所述的方法，其特征在于，所述特征提取器是用于从文本中提取特征的文本特征提取器，所述人物信息为人物标签，所述道具信息为道具标签，所述人物标签是用于指示所述输出图像中的人物特征的文本信息，所述道具标签是用于指示所述输出图像中的道具特征的文本信息；

6.根据权利要求1所述的方法，其特征在于，所述图像生成模型还包括文本编码器和姿态提取网络；所述人物信息为人物图像，所述道具信息包括道具图像和道具掩码；

7.根据权利要求1所述的方法，其特征在于，所述通过所述控制网络，根据所述控制网络的输入信息，生成所述控制网络的输出信息，包括：

8.根据权利要求1所述的方法，其特征在于，所述稳定扩散模型包括编码网络、第一解码网络和第二解码网络；

9.根据权利要求8所述的方法，其特征在于，所述控制网络的结构与所述编码网络的结构相同。

10.一种图像生成模型的训练方法，其特征在于，所述图像生成模型包括稳定扩散模型和控制网络，所述方法包括：

11.根据权利要求10所述的方法，其特征在于，所述获取所述标签图像中的人物信息和道具信息之前，还包括：

12.根据权利要求10所述的方法，其特征在于，所述通过所述控制网络，根据所述控制网络的输入信息，生成所述控制网络的输出信息，包括：

13.根据权利要求10所述的方法，其特征在于，所述稳定扩散模型包括编码网络、第一解码网络和第二解码网络；

14.根据权利要求10至13任一项所述的方法，其特征在于，所述根据所述预测图像和所述标签图像，对所述控制网络的参数进行调整，得到训练后的图像生成模型，包括：

15.一种基于图像生成模型的图像生成装置，其特征在于，所述图像生成模型包括稳定扩散模型和控制网络，所述装置包括：

16.一种图像生成模型的训练装置，其特征在于，所述图像生成模型包括稳定扩散模型和控制网络，所述装置包括：

17.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至9任一项所述的基于图像生成模型的图像生成方法，或者实现如权利要求10至14任一项所述的图像生成模型的训练方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至9任一项所述的基于图像生成模型的图像生成方法，或者实现如权利要求10至14任一项所述的图像生成模型的训练方法。

19.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至9任一项所述的基于图像生成模型的图像生成方法，或者实现如权利要求10至14任一项所述的图像生成模型的训练方法。

...

【技术特征摘要】

1.一种基于图像生成模型的图像生成方法，其特征在于，所述图像生成模型包括稳定扩散模型和控制网络，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述图像生成模型还包括文本编码器和特征提取器；

7.根据权利要求1所述的方法，其特征在于，所述通过所述控制网络，根据所述控制网络的输入信息，生成所述控制网络的输出信息，包括：

8.根据权利要求1所述的方法，其特征在于，所述稳定扩散模型包括编码网络、第一解码网络和第二解码网络；

9.根据权利要求8所述的方法，其特征在于，所述控制网络的结构与所述编码网络的结构相同。

10.一种图像生成模型的训练方法，其特征在于，所述图像生成模型包括稳定...

【专利技术属性】
技术研发人员：吴欣填，李玺，张亚庆，万乐，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人