基于文本的图像生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：40316180 阅读：11 留言：0更新日期：2024-02-07 20:58

本申请公开一种基于文本的图像生成方法、装置、电子设备及存储介质，属于文本到图像的跨模态生成领域。该方法包括：获取用户输入的目标文本，目标文本包括一条或多条文字描述；对目标文本进行语义识别，确定多个待生成场景和各个待生成场景对应的文字描述；从待生成场景对应的文字描述中提取文本提示词，并确定待生成场景对应的画面配置信息；根据多个待生成场景的文本提示词和画面配置信息，生成目标文本对应的目标图像。这样，针对每个待生成场景提取文本提示词并对应生成画面，可以减少目标文本的文字描述中元素缺失的可能性，而且能够使所生成的目标图像更加全面的呈现出目标文本中的多个待生成场景，提高用户的体验度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及文本到图像的跨模态生成领域，尤其涉及一种基于文本的图像生成方法、装置、电子设备及存储介质。

技术介绍

1、随着图像处理和语言理解方面的技术的发展，融合图像和文本处理的多模态任务获得了广泛的关注，包括字幕生成、视觉问答、文本生成图像等。其中，文本生成图像即是根据给定文本生成符合描述的图像，比如，用户输入“一只可爱的牧羊犬在草原上奔跑”，就会根据该文本生成相应的图像。

2、然而，相关文本生成图像方案对于长文本和空间感的理解能力不足，对于包含复杂场景的文本，所生成的图像中容易缺失文本中的元素，从而难以全面的展示文本中的复杂场景，降低用户体验度。

技术实现思路

1、本申请实施例提供了一种基于文本的图像生成方法、装置、电子设备及存储介质，用以解决相关技术中难以准确的展示文本中的复杂场景的问题。

2、为了解决上述技术问题，本申请是这样实现的：

3、第一方面，本申请实施例提供了一种基于文本的图像生成方法，包括：

4、获取用户输入的目标文本，所述目标文本包括一条或多条文字描述；

5、对所述目标文本进行语义识别，确定多个待生成场景和各个所述待生成场景对应的文字描述；

6、从所述待生成场景对应的文字描述中提取文本提示词，并确定所述待生成场景对应的画面配置信息；

7、根据多个所述待生成场景的文本提示词和画面配置信息，生成所述目标文本对应的目标图像。

8、在一种可能的实现方式中，所述获取用户输入的目标文本，包括：

9、在检测到用户针对交互界面上预设区域的输入操作的情况下，获取所述预设区域内用户输入的目标文本。

10、在一种可能的实现方式中，所述对所述目标文本进行语义识别，确定多个待生成场景和各个所述待生成场景对应的文字描述，包括：

11、将所述目标文本输入至语义识别模型中，通过所述语义识别模型对所述一条或多条文字描述进行语义识别，预测所述目标文本对应的多个待生成场景，并获取各个所述待生成场景对应的文字描述。

12、在一种可能的实现方式中，所述画面配置信息包括画面质量信息、画面位置信息和画面尺寸信息；所述根据多个所述待生成场景的文本提示词和画面配置信息，生成所述目标文本对应的目标图像，包括：

13、将每个所述待生成场景对应的文本提示词和画面质量信息输入至图像生成模型中，通过所述图像生成模型对文本提示词和画面质量信息进行特征融合，生成所述待生成场景对应的场景画面；

14、根据所述画面位置信息和画面尺寸信息，对多个所述待生成场景对应的场景画面进行布局，得到所述目标文本对应的目标图像。

15、在一种可能的实现方式中，所述根据多个所述待生成场景的文本提示词和画面配置信息，生成所述目标文本对应的目标图像，包括：

16、将多个所述待生成场景的文本提示词和画面配置信息输入至预先训练的图像生成模型进行特征融合处理，得到所述目标文本对应的多张候选图像；

17、根据多张所述候选图像中元素数量符合预设阈值的候选图像确定为所述目标文本对应的目标图像。

18、在一种可能的实现方式中，在所述根据多个所述待生成场景的文本提示词和画面配置信息，生成所述目标文本对应的目标图像之后，还包括：

19、在所述用户对应的交互界面的预定区域展示所述目标图像。

20、第二方面，本申请实施例提供了一种基于文本的图像生成装置，包括：

21、文本获取模块，用于获取用户输入的目标文本，所述目标文本包括一条或多条文字描述；

22、语义识别模块，用于对所述目标文本进行语义识别，确定多个待生成场景和各个所述待生成场景对应的文字描述；

23、提示词提取模块，用于从所述待生成场景对应的文字描述中提取文本提示词，并确定所述待生成场景对应的画面配置信息；

24、图像生成模块，用于根据多个所述待生成场景的文本提示词和画面配置信息，生成所述目标文本对应的目标图像。

25、在一种可能的实现方式中，还包括：

26、图像展示模块，用于在所述用户对应的交互界面的预定区域展示所述目标图像。

27、第三方面，本申请实施例提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现上述的方法的步骤。

28、第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现上述的步骤。

29、本申请实施例提供了一种基于文本的图像生成方法，获取用户输入的目标文本，该目标文本包括一条或多条文字描述；对目标文本进行语义识别，确定多个待生成场景和各个待生成场景对应的文字描述；从待生成场景对应的文字描述中提取文本提示词，并确定待生成场景对应的画面配置信息；根据多个待生成场景的文本提示词和画面配置信息，生成目标文本对应的目标图像。这样，通过对目标文本中的文字描述进行场景划分，针对每个待生成场景的文本提示词分别生成相应的画面，可以减少目标文本的文字描述中元素缺失的可能性，而且能够使所生成的目标图像更加全面的呈现出目标文本中的多个待生成场景，提高用户的体验度。

本文档来自技高网...

【技术保护点】

1.一种基于文本的图像生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取用户输入的目标文本，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述目标文本进行语义识别，确定多个待生成场景和各个所述待生成场景对应的文字描述，包括：

4.根据权利要求1所述的方法，其特征在于，所述画面配置信息包括画面质量信息、画面位置信息和画面尺寸信息；所述根据多个所述待生成场景的文本提示词和画面配置信息，生成所述目标文本对应的目标图像，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据多个所述待生成场景的文本提示词和画面配置信息，生成所述目标文本对应的目标图像，包括：

6.根据权利要求1所述的方法，其特征在于，在所述根据多个所述待生成场景的文本提示词和画面配置信息，生成所述目标文本对应的目标图像之后，还包括：

7.一种基于文本的图像生成装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，还包括：

9.一种电子设备，其特征在于，所述电子设备包括处理

10.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至6任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种基于文本的图像生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取用户输入的目标文本，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述目标文本进行语义识别，确定多个待生成场景和各个所述待生成场景对应的文字描述，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据多个所述待生成场景的文本提示词和画面配置信息，生成所述目标文本对应的目标图像，包括...

【专利技术属性】
技术研发人员：吕宝源，李涛，
申请(专利权)人：郑州阿帕斯数云信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人