System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 图像编辑方法、装置、电子设备及存储介质制造方法及图纸_技高网

图像编辑方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40807788 阅读:29 留言:0更新日期:2024-03-28 19:30
本公开提供了一种图像编辑方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及自然语言处理、计算机视觉、深度学习等技术领域。图像编辑方法包括:获取用户在当前轮对话中输入的编辑指令和历史轮对话中的历史对话信息,所述历史对话信息包括历史对话文本和至少一个历史图像;基于所述编辑指令和所述历史对话信息,从所述至少一个历史图像中确定待编辑的源图像;以及基于所述编辑指令,对所述源图像进行编辑,以生成目标图像。

【技术实现步骤摘要】

本公开涉及人工智能,尤其涉及自然语言处理、计算机视觉、深度学习等,具体涉及一种图像编辑方法及装置、电子设备、计算机可读存储介质和计算机程序产品。


技术介绍

1、人工智能(artificial intelligence,ai)是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

2、大语言模型(large language model,llm,又称大模型)是使用大量文本数据训练的深度学习模型,其可以生成自然语言文本或理解自然语言文本的含义。大语言模型可以处理多种自然语言任务,例如对话、文本分类、文本生成等,是通向人工智能的一条重要途径。一些大语言模型还具有多模态数据处理能力,例如能够处理文本、图像、视频等多模态数据。

3、在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。


技术实现思路

1、本公开提供了一种图像编辑方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

2、根据本公开的一方面,提供了一种图像编辑方法,包括:获取用户在当前轮对话中输入的编辑指令和历史轮对话中的历史对话信息,其中,所述历史对话信息包括历史对话文本和至少一个历史图像;基于所述编辑指令和所述历史对话信息,从所述至少一个历史图像中确定待编辑的源图像;以及基于所述编辑指令,对所述源图像进行编辑,以生成目标图像。

3、根据本公开的一方面,提供了一种图像编辑装置,包括:获取模块,被配置为获取用户在当前轮对话中输入的编辑指令和历史轮对话中的历史对话信息,其中,所述历史对话信息包括历史对话文本和至少一个历史图像;确定模块,被配置为基于所述编辑指令和所述历史对话信息,从所述至少一个历史图像中确定待编辑的源图像;以及编辑模块,被配置为基于所述编辑指令,对所述源图像进行编辑,以生成目标图像。

4、根据本公开的一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。

5、根据本公开的一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行上述方法。

6、根据本公开的一方面,提供了一种计算机程序产品,包括计算机程序指令,所述计算机程序指令在被处理器执行时实现上述方法。

7、根据本公开的一个或多个实施例,能够实现多轮对话式的图像编辑,显著降低了用户的操作复杂度,提升了图像编辑效率和用户体验。

8、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种图像编辑方法,包括:

2.根据权利要求1所述的方法,其中,所述基于所述编辑指令和所述历史对话信息,从所述至少一个历史图像中确定待编辑的源图像包括:

3.根据权利要求1或2所述的方法,其中,所述基于所述编辑指令,对所述源图像进行编辑包括:

4.根据权利要求3所述的方法,其中,所述基于所述源描述文本和所述编辑指令,确定所述目标图像的目标描述文本包括:

5.根据权利要求3或4所述的方法,其中,所述基于所述目标描述文本,生成所述目标图像包括:

6.根据权利要求5所述的方法,其中,所述文生图扩散模型包括文本编码器和噪声生成网络,并且其中,所述多次第二迭代中的每次第二迭代包括:

7.根据权利要求5或6所述的方法,其中,所述第二初始图像是基于所述源图像生成的。

8.根据权利要求7所述的方法,其中,所述第二初始图像通过对所述源图像添加噪声而得到。

9.一种图像编辑装置,包括:

10.根据权利要求9所述的装置,其中,所述确定模块包括:

11.根据权利要求9或10所述的装置,其中,所述编辑模块包括:

12.根据权利要求11所述的装置,其中,所述确定单元进一步被配置为:

13.根据权利要求11或12所述的装置,其中,所述生成单元包括:

14.根据权利要求13所述的装置,其中,所述文生图扩散模型包括文本编码器和噪声生成网络,并且其中,所述多次第二迭代中的每次第二迭代包括:

15.根据权利要求13或14所述的装置,其中,所述第二初始图像是基于所述源图像生成的。

16.根据权利要求15所述的装置,其中,所述第二初始图像通过对所述源图像添加噪声而得到。

17.一种电子设备,包括:

18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-8中任一项所述的方法。

19.一种计算机程序产品,包括计算机程序指令,其中,所述计算机程序指令在被处理器执行时实现权利要求1-8中任一项所述的方法。

...

【技术特征摘要】

1.一种图像编辑方法,包括:

2.根据权利要求1所述的方法,其中,所述基于所述编辑指令和所述历史对话信息,从所述至少一个历史图像中确定待编辑的源图像包括:

3.根据权利要求1或2所述的方法,其中,所述基于所述编辑指令,对所述源图像进行编辑包括:

4.根据权利要求3所述的方法,其中,所述基于所述源描述文本和所述编辑指令,确定所述目标图像的目标描述文本包括:

5.根据权利要求3或4所述的方法,其中,所述基于所述目标描述文本,生成所述目标图像包括:

6.根据权利要求5所述的方法,其中,所述文生图扩散模型包括文本编码器和噪声生成网络,并且其中,所述多次第二迭代中的每次第二迭代包括:

7.根据权利要求5或6所述的方法,其中,所述第二初始图像是基于所述源图像生成的。

8.根据权利要求7所述的方法,其中,所述第二初始图像通过对所述源图像添加噪声而得到。

9.一种图像编辑装置,包括:

10.根据权利要求9所述的装置,其中,...

【专利技术属性】
技术研发人员:李国豪刘家辰肖欣延
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1