图像生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：40918356 阅读：4 留言：0更新日期：2024-04-18 14:44

本公开提供了一种图像生成方法、装置、电子设备及存储介质，涉及人工智能技术领域，尤其涉及自然语言处理、计算机视觉、深度学习等领域。图像生成方法包括：获取用户在当前轮对话中输入的第一描述数据，该第一描述数据用于描述待生成的第一图像；基于第一描述数据，生成第一图像；将第一图像和针对该第一图像的至少一个控件作为当前轮对话的应答数据进行输出，至少一个控件与针对第一图像的至少一个动作分别对应，至少一个控件中的任一控件被配置为响应于用户对该控件的操作，对第一图像执行相应的动作。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，尤其涉及自然语言处理、计算机视觉、深度学习等，具体涉及一种图像生成方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

1、人工智能(artificial intelligence，ai)是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

2、大语言模型(large language model，llm，又称大模型)是使用大量文本数据训练的深度学习模型，其可以生成自然语言文本或理解自然语言文本的含义。大语言模型可以处理多种自然语言任务，例如对话、文本分类、文本生成等，是通向人工智能的一条重要途径。一些大语言模型还具有多模态数据处理能力，例如能够处理文本、图像、视频等多模态数据。

3、在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

1、本公开提供了一种图像生成方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

2、根据本公开的一

3、根据本公开的一方面，提供了一种图像生成装置，包括：第一获取模块，被配置为获取用户在当前轮对话中输入的第一描述数据，其中，所述第一描述数据用于描述待生成的第一图像；第一生成模块，被配置为基于所述第一描述数据，生成所述第一图像；以及第一输出模块，被配置为将所述第一图像和针对所述第一图像的至少一个控件作为所述当前轮对话的应答数据进行输出，其中，所述至少一个控件与针对所述第一图像的至少一个动作分别对应，所述至少一个控件中的任一控件被配置为响应于所述用户对所述控件的操作，对所述第一图像执行相应的动作。

4、根据本公开的一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述方法。

5、根据本公开的一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行上述方法。

6、根据本公开的一方面，提供了一种计算机程序产品，包括计算机程序指令，所述计算机程序指令在被处理器执行时实现上述方法。

7、根据本公开的一个或多个实施例，能够实现对话式的图像生成，并且支持用户进行图形界面交互，降低了操作复杂度，提高了图像生成的效率。

8、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种图像生成方法，包括：

2.根据权利要求1所述的方法，其中，所述获取用户在当前轮对话中输入的第一描述数据包括：

3.根据权利要求1或2所述的方法，其中，所述基于所述第一描述数据，生成所述第一图像包括：

4.根据权利要求1或2所述的方法，其中，所述第一描述数据包括第一描述文本，并且其中，所述基于所述第一描述数据，生成所述第一图像包括：

5.根据权利要求4所述的方法，其中，所述对所述第一描述文本进行改写包括：

6.根据权利要求4或5所述的方法，其中，所述对所述第一描述文本进行改写包括：

7.根据权利要求4-6中任一项所述的方法，其中，所述基于所述第二描述数据，生成所述第一图像包括：

8.根据权利要求1-7中任一项所述的方法，其中，所述第一描述数据包括第一描述文本，所述方法还包括：

9.根据权利要求8所述的方法，其中，所述输出用于描述所述第二图像的第二描述文本包括：

10.根据权利要求1-9中任一项所述的方法，还包括：

11.根据权利要求1-10中任一项所述的方法，还包括：

12.根据权利要求1-10中任一项所述的方法，还包括：

13.根据权利要求11或12所述的方法，其中，所述行为数据包括所述用户对所述至少一个控件的操作数据和/或所述用户在下一轮对话中的输入数据。

14.根据权利要求1-13中任一项所述的方法，其中，所述至少一个控件包括以下至少之一：

15.根据权利要求14所述的方法，还包括：

16.一种图像生成装置，包括：

17.根据权利要求16所述的装置，其中，所述第一获取模块包括：

18.根据权利要求16或17所述的装置，其中，所述第一生成模块包括：

19.根据权利要求16或17所述的装置，其中，所述第一描述数据包括第一描述文本，并且其中，所述第一生成模块包括：

20.根据权利要求19所述的装置，其中，所述改写单元包括：

21.根据权利要求19或20所述的装置，其中，所述改写单元进一步被配置为：

22.根据权利要求19-21中任一项所述的装置，其中，所述生成单元包括：

23.根据权利要求16-22中任一项所述的装置，其中，所述第一描述数据包括第一描述文本，所述装置还包括：

24.根据权利要求23所述的装置，其中，所述第二输出模块进一步被配置为：

25.根据权利要求16-24中任一项所述的装置，还包括：

26.根据权利要求16-25中任一项所述的装置，还包括：

27.根据权利要求16-25中任一项所述的装置，还包括：

28.根据权利要求26或27所述的装置，其中，所述行为数据包括所述用户对所述至少一个控件的操作数据和/或所述用户在下一轮对话中的输入数据。

29.根据权利要求16-28中任一项所述的装置，其中，所述至少一个控件包括以下至少之一：

30.根据权利要求29所述的装置，还包括：

31.一种电子设备，包括：

32.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-15中任一项所述的方法。

33.一种计算机程序产品，包括计算机程序指令，其中，所述计算机程序指令在被处理器执行时实现权利要求1-15中任一项所述的方法。

...

【技术特征摘要】