基于扩散模型的文本引导多区域场景图像编辑方法及系统技术方案

技术编号：40241073 阅读：5 留言：0更新日期：2024-02-02 22:39

本发明专利技术提供了一种基于扩散模型的文本引导多区域场景图像编辑方法及系统，涉及计算机视觉图像生成技术领域。本发明专利技术可以同时处理多个待编辑区域和相应的文本，在不同时期的去噪步骤中分别关注实体级的对象编辑和布局级的背景协调；在去噪过程的前期，本发明专利技术采用多目标实体级编辑方法，通过扩展小面积区域的掩码来保证多个实体目标编辑的准确性；为实现布局级背景协调，在去噪过程的后期，本发明专利技术不仅鼓励使用原始场景图像的噪声版本来代替背景区域的随机噪声，还通过向外低通滤波的方法来消除编辑后的图像各区域之间噪声水平的急剧过渡；本发明专利技术能够一次完成用户的多个编辑灵感，同时保证场景图像的整体布局和构思得到体现。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉图像生成，特别涉及一种基于扩散模型的文本引导多区域场景图像编辑方法及系统。

技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
，并不必然构成现有技术。

2、当用户准备编辑一张场景图像时，通常会在脑海中有一个总体的构思编辑场景，它涉及到场景中不同的编辑对象和多种编辑操作，只要用户告诉模型他的总体想法，模型就可以快速准确地实现用户脑海中的灵感并呈现给用户，目前一些最先进的图像编辑模型在实现这一愿景方面还有很多需要改进的地方。

3、随着扩散模型的引入，在场景图像编辑上有了大量的工作，自然语言作为人类最常用的交流方式，为场景图像编辑提供了高度直观的手段，降低了非专业人员进行图像编辑操作的门槛。为了更精确地控制编辑操作，一些基于扩散模型的文本引导场景图像编辑方法引入了其他约束，如语义图和掩码；例如，glide方法和stable inpainting方法随机擦除部分图像，并对模型进行微调，以恢复相应图像标题条件下的缺失区域。

4、然而，这些方法往往侧重于对单个目标的编辑，它们只能根据给定的文本提示在单个掩码区域进行编辑，当用户描绘多个掩码区域时，这些模型无法根据不同的文本语义在相应的区域进行编辑。如图1所示，blended diffusion方法在溪流的位置错误地生成了第一行的兔子，并且在图像中没有生成其他对象；同样，当stable inpainting方法在第二行生成咖啡豆时，它们是在桌面上而不是在盘子上生成的；glide方法只是更改了指定溪流的位置，但不生成相应的

5、此外，在使用这些模型进行多个掩码区域的场景图像编辑时，整体布局非常不协调。例如，当blended latent diffusion方法生成咖啡时，不仅整个结果生成不准确，而且实体和背景也不和谐。在卡布奇诺上面的拿铁和杯子之间有明显的鸿沟；blendeddiffusion方法在生成咖啡时也存在生成桌面和白板边界不吻合的问题；在整体布局方面，这些不吻合和分割不仅影响了整个图像的质量，也违背了用户希望通过编辑多个区域来实现整体构思的愿望。

技术实现思路

1、为了解决现有技术的不足，本专利技术提供了一种基于扩散模型的文本引导多区域场景图像编辑方法及系统，采用实体级和布局级文本引导的多区域图像编辑策略，根据用户提供的多个掩码和文本，对输入的场景图像进行合理的编辑操作，能够一次完成用户的多个编辑灵感，同时保证场景图像的整体布局和构思得到体现。

2、为了实现上述目的，本专利技术采用如下技术方案：

3、第一方面，本专利技术提供了一种基于扩散模型的文本引导多区域场景图像编辑方法。

4、一种基于扩散模型的文本引导多区域场景图像编辑方法，包括以下过程：

5、当扩散模型去噪过程中的当前时间步长大于纯色背景引导步长时，根据当前时间步长下图像、颜色固定的随机图像以及添加了掩码膨胀指标的掩码，得到下一时间步长的中间生成图像；

6、当扩散模型去噪过程中的当前时间步长小于或等于纯色背景引导步长后，根据当前时间步长图像、添加了向外低通滤波运算符的掩码以及待处理的原始图像，得到下一时间步长的中间生成图像，进而最终得到预训练的扩散模型输出的干净图像；

7、根据设定的掩码以及所述干净图像，得到最终的图像编辑结果。

8、作为本专利技术第一方面进一步的限定，将用户在原始图像上绘制的不同掩码区域分割成多个掩码图像，每个掩码图像中都有一个区域，将掩码图像经过下采样到潜在空间，并将它们连接到0th维度，不同的掩码图像同时参与去噪过程。

9、作为本专利技术第一方面进一步的限定，添加了掩码膨胀指标的掩码，包括：

10、如果掩码膨胀指标为零，掩码保持不变；如果掩码膨胀指标为一个正整数，则掩码根据掩码膨胀指标的值扩展到不同的程度。

11、作为本专利技术第一方面进一步的限定，当扩散模型去噪过程中的当前时间步长大于纯色背景引导步长时，以颜色固定的随机图像bgt作为背景，在隐空间中，颜色固定的随机图像bgt被噪声化到时间步长t的噪声级。

12、作为本专利技术第一方面进一步的限定，当扩散模型去噪过程中的当前时间步长小于或等于纯色背景引导步长后，对于每个掩码，以最原始的图像直接作为背景，对原始图像进行加噪；

13、将原始图像和区域以相同的噪声级别融合到下一个去噪过程中，其中，为i个掩码对应的t-1步长的中间生成图像，mi为第i个掩码。

14、作为本专利技术第一方面进一步的限定，添加了向外低通滤波运算符的掩码，包括：

15、将低通滤波操作与原始掩码加权，只向外模糊掩码的边界，得到向外模糊的掩码，以向外模糊的掩码作为添加了向外低通滤波运算符的掩码。

16、作为本专利技术第一方面进一步的限定，每个原始图像均对应有一组文本提示和一组掩码，文本提示与掩码一一对应。

17、第二方面，本专利技术提供了一种基于扩散模型的文本引导多区域场景图像编辑系统。

18、一种基于扩散模型的文本引导多区域场景图像编辑系统，包括：

19、第一图像处理模块，被配置为：当扩散模型去噪过程中的当前时间步长大于纯色背景引导步长时，根据当前时间步长下图像、颜色固定的随机图像以及添加了掩码膨胀指标的掩码，得到下一时间步长的中间生成图像；

20、第二图像处理模块，被配置为：当扩散模型去噪过程中的当前时间步长小于或等于纯色背景引导步长后，根据当前时间步长图像、添加了向外低通滤波运算符的掩码以及待处理的原始图像，得到下一时间步长的中间生成图像，进而最终得到预训练的扩散模型输出的干净图像；

21、编辑结果生成模块，被配置为：根据设定的掩码以及所述干净图像，得到最终的图像编辑结果。

22、第三方面，本专利技术提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本专利技术第一方面所述的基于扩散模型的文本引导多区域场景图像编辑方法中的步骤。

23、第四方面，本专利技术提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本专利技术第一方面所述的基于扩散模型的文本引导多区域场景图像编辑方法中的步骤。

24、与现有技术相比，本专利技术的有益效果是：

25、1、本专利技术采用实体级和布局级文本引导的多区域图像编辑策略，根据用户提供的多个掩码和文本，对输入的场景图像进行合理的编辑操作，能够一次完成用户的多个编辑灵感，同时保证场景图像的整体布局和构思得到体现。

26、2、本专利技术创新性的提出了一种实体级的对象编辑方法，通过扩展小面积的掩模来保证编辑多个对象的准确性；在输入掩码中引入一个膨胀因子，不仅将掩码作为输入，而且还接受关于被绘制对象应该遵循掩码大小的程度的信息；在扩散本文档来自技高网...

【技术保护点】

1.一种基于扩散模型的文本引导多区域场景图像编辑方法，其特征在于，包括以下过程：

2.如权利要求1所述的基于扩散模型的文本引导多区域场景图像编辑方法，其特征在于，

3.如权利要求1所述的基于扩散模型的文本引导多区域场景图像编辑方法，其特征在于，

4.如权利要求1所述的基于扩散模型的文本引导多区域场景图像编辑方法，其特征在于，

5.如权利要求1所述的基于扩散模型的文本引导多区域场景图像编辑方法，其特征在于，

6.如权利要求1所述的基于扩散模型的文本引导多区域场景图像编辑方法，其特征在于，

7.如权利要求1所述的基于扩散模型的文本引导多区域场景图像编辑方法，其特征在于，

8.一种基于扩散模型的文本引导多区域场景图像编辑系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的基于扩散模型的文本引导多区域场景图像编辑方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的

...

【技术特征摘要】