图像编辑方法、装置、电子设备及存储介质制造方法及图纸

技术编号：40807788 阅读：32 留言：0更新日期：2024-03-28 19:30

本公开提供了一种图像编辑方法、装置、电子设备及存储介质，涉及人工智能技术领域，尤其涉及自然语言处理、计算机视觉、深度学习等技术领域。图像编辑方法包括：获取用户在当前轮对话中输入的编辑指令和历史轮对话中的历史对话信息，所述历史对话信息包括历史对话文本和至少一个历史图像；基于所述编辑指令和所述历史对话信息，从所述至少一个历史图像中确定待编辑的源图像；以及基于所述编辑指令，对所述源图像进行编辑，以生成目标图像。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，尤其涉及自然语言处理、计算机视觉、深度学习等，具体涉及一种图像编辑方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

1、人工智能(artificial intelligence，ai)是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

2、大语言模型(large language model，llm，又称大模型)是使用大量文本数据训练的深度学习模型，其可以生成自然语言文本或理解自然语言文本的含义。大语言模型可以处理多种自然语言任务，例如对话、文本分类、文本生成等，是通向人工智能的一条重要途径。一些大语言模型还具有多模态数据处理能力，例如能够处理文本、图像、视频等多模态数据。

3、在此...

【技术保护点】

1.一种图像编辑方法，包括：

2.根据权利要求1所述的方法，其中，所述基于所述编辑指令和所述历史对话信息，从所述至少一个历史图像中确定待编辑的源图像包括：

3.根据权利要求1或2所述的方法，其中，所述基于所述编辑指令，对所述源图像进行编辑包括：

4.根据权利要求3所述的方法，其中，所述基于所述源描述文本和所述编辑指令，确定所述目标图像的目标描述文本包括：

5.根据权利要求3或4所述的方法，其中，所述基于所述目标描述文本，生成所述目标图像包括：

6.根据权利要求5所述的方法，其中，所述文生图扩散模型包括文本编码器和噪声生成网络，并...

【技术特征摘要】

1.一种图像编辑方法，包括：

2.根据权利要求1所述的方法，其中，所述基于所述编辑指令和所述历史对话信息，从所述至少一个历史图像中确定待编辑的源图像包括：

3.根据权利要求1或2所述的方法，其中，所述基于所述编辑指令，对所述源图像进行编辑包括：

4.根据权利要求3所述的方法，其中，所述基于所述源描述文本和所述编辑指令，确定所述目标图像的目标描述文本包括：

5.根据权利要求3或4所述的方法，其中，所述基于所述目标描述文本，生成所述目标图像包括：

6.根据权利要求5所述的方法，其中，所述文生图扩散模型包括文本编码器和噪声生成网络，并且其中，所述多次第二迭代中的每次第二迭代包括：

7.根据权利要求5或6所述的方法，其中，所述第二初始图像是基于所述源图像生成的。

8.根据权利要求7所述的方法，其中，所述第二初始图像通过对所述源图像添加噪声而得到。

9.一种图像编辑装置，包括：

10.根据权利要求9所述的装置，其中，...

【专利技术属性】
技术研发人员：李国豪，刘家辰，肖欣延，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人