基于文生图大模型的图像细粒度编辑方法及系统技术方案

技术编号：40869142 阅读：2 留言：0更新日期：2024-04-08 16:35

本发明专利技术提供一种基于文生图大模型的图像细粒度编辑方法及系统，通过用户输入描述源图像和编辑图像的文本以及目标编辑区域的掩码，利用文生图大模型进行图像细粒度编辑，在潜空间噪声图去噪处理过程的预设时间步内中进行所述潜空间噪声图的优化处理，所述优化处理包括：先将当前步的潜空间噪声图和文本提示输入噪声预测网络；然后提取噪声预测网络中生成的交叉注意力图，并利用交叉注意力图计算注意力调整约束；最后通过反向传播计算注意力调整约束对潜空间噪声图的梯度，并利用此梯度更新潜空间噪声图。本发明专利技术能够使得编辑图像达到目标效果并保持整体的图像结构。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能下的图像编辑领域，更为具体地，涉及一种基于文生图大模型的图像细粒度编辑方法及系统。

技术介绍

1、图像编辑一直是人们对于图像处理和美学表达的重要手段，但传统的手工编辑方法需要耗费大量的时间和精力。随着计算机技术、深度学习技术和大规模数据集的不断发展，文本生成图像因其高效性、灵活性和可扩展性等优点已经成为一个备受关注的研究领域，为自动化图像编辑提供了可能。

2、现有的图像编辑方法主要集中在处理简单布局图像中的明显物体。然而，现实世界中的图像通常包含多个对象的复杂组合；此外，用户往往需要在特定的局部区域进行编辑。具体来说，基于掩码的内绘(inpainting)方法可直接生成一个新对象作为前景元素，并将其融合到原始图像中。然而，这往往会导致编辑区域内的结构发生巨大变化，与周围复杂的环境产生明显的不协调。此外，利用注意力注入机制的无掩码方法，如prompt-to-prompt和plug-and-play可以保留原始图像的结构和布局。然而，在复杂的场景中，它们很难将局部编辑区域与编辑图像的文本描述精确对齐，导致编辑效果往往会超出目标区域。

3、因此，如何能够自动对文本进行精细化图像编辑，成为目前人工智能图像编辑领域的研究方向之一。

技术实现思路

1、鉴于上述目前图像编辑方法中存在的定位不准确和编辑效果不佳的问题，本专利技术的目的是提供一种图像细粒度编辑方法及系统，使用注意力调整梯度引导优化潜空间噪声图，以使得编辑图像能够达到目标效果并保持整体的图像结构。

2、本专利技术提供的基于文生图大模型的图像细粒度编辑方法，包括如下步骤：

3、s110：基于文生图输入数据获取源图像的潜空间噪声图；其中，所述文生图输入数据包括所述源图像、目标编辑区域的掩码、对于所述源图像的文本描述以及编辑图像的文本描述；

4、s120：对所述潜空间噪声图进行去噪处理，并在所述去噪处理中的预设时间步内先进行所述潜空间噪声图的优化处理；

5、s130：将所述去噪处理最后一步得到的潜空间噪声图解码得到编辑后图像；

6、其中，所述潜空间噪声图的优化处理，包括：

7、s121：将当前时间步的潜空间噪声图和所述编辑像的文本描述的文本嵌入输入预设的噪声预测网络进行噪声预测；

8、s122：提取所述噪声预测网络中生成的交叉注意力图；

9、s123：利用所述交叉注意力图计算基于掩码的注意力调整约束；

10、s124：通过反向传播计算所述注意力调整约束对所述潜空间噪声图的梯度，并利用所述梯度更新所述潜空间噪声图。

11、其中，可选的方案是，所述基于文生图输入数据获取源图像的潜空间噪声图，包括：通过文生图大模型的编码器对所述源图像进行感知压缩，获得所述源图像的潜空间表示；基于所述源图像的潜空间表示，使用图像inversion方法获得所述源图像的潜空间噪声图。

12、其中，可选的方案是，所述交叉注意力图包括与描述目标图像的编辑词元对应的交叉注意力图，和与描述源图像的负向词元的对应的交叉注意力图。

13、其中，可选的方案是，所述基于掩码的注意力调整约束包括使用与描述编辑图像的编辑词元对应的交叉注意力图计算得到的正向约束，和，使用与描述源图像的负向词元对应的交叉注意力图计算得到的负向约束，所述正向约束和所述负向约束的加权和为总约束。

14、其中，可选的方案是，对所述潜空间噪声图进行去噪处理包括重建分支和编辑分支；其中，

15、所述重建分支用于在所述去噪处理的每一时间步使用源图像的文本描述的文本嵌入和潜空间噪声图进行噪声预测；

16、所述编辑分支用在所述去噪处理的预设时间步内循环进行基于掩码的注意力调整约束引导；其中，

17、在所述去噪处理的预设时间步内，将源图像的文本描述和编辑图像的文本描述中相同词元对应的重建分支的交叉注意力图注入编辑分支；

18、在所述去噪处理的末尾部分时间步内，利用掩码将重建分支的潜空间噪声图和编辑分支的潜空间噪声图进行混合操作。

19、其中，可选的方案是，所述基于掩码的注意力调整约束包括词元比例约束和空间比例约束；其中，

20、所述词元比例约束的损失函数如下：

21、

22、其中，是词元比例约束的损失函数，是索引为i的编辑词元在t时刻对应的交叉注意力图，为用户输入的掩码，是掩码的和，at是注入重建过程的交叉注意力图，j为对源图像以及编辑图像的文本描述中相同词元的索引；

23、所述空间比例约束的损失函数计算如下：

24、

25、是空间比例约束的损失函数，λ是平衡权重。

26、其中，可选的方案是，在利用所述梯度更新所述潜空间噪声图的过程中，在所述潜空间噪声图的掩码内区域以预设学习率减去梯度。

27、其中，可选的方案是，对于当前时间步，循环进行步骤s121至步骤s124，直至达到最大循环步数或达到约束阈值。

28、本专利技术还提供一种基于文生图大模型的图像细粒度编辑方法，利用如前所述的基于文生图大模型的图像细粒度编辑方法进行图像编辑，包括：

29、潜空间噪声图获取单元，用于基于文生图输入数据获取源图像的潜空间噪声图；其中，所述文生图输入数据包括所述源图像、目标编辑区域的掩码、对于所述源图像的文本描述以及编辑图像的文本描述；

30、去噪单元，用于对所述潜空间噪声图进行去噪处理；

31、优化单元，用于在所述去噪处理中的预设时间步内先进行所述潜空间噪声图的优化处理；

32、解码单元，用于将所述去噪处理最后一步得到的潜空间噪声图解码得到编辑后图像；

33、其中，所述优化单元包括：

34、噪声预测单元，用于将当前时间步的潜空间噪声图和所述编辑像的文本描述的文本嵌入输入预设的噪声预测网络进行噪声预测；

35、交叉注意力提取单元，用于提取所述噪声预测网络中生成的交叉注意力图；

36、注意力调整约束计算单元，用于利用所述交叉注意力图计算基于掩码的注意力调整约束；

37、更新单元，用于通过反向传播计算所述注意力调整约束对所述潜空间噪声图的梯度，并利用所述梯度更新所述潜空间噪声图。

38、本专利技术还提供一种电子设备，所述电子设备包括：

39、至少一个处理器；以及，

40、与所述至少一个处理器通信连接的存储器；其中，

41、所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如前所述的基于文生图大模型的图像细粒度编辑方法中的步骤。

42、从上面的技术方案可知，本专利技术提供的基于文生图大模型的图像细粒度编辑方法及系统，通过用户输入描述源图像和编辑图像的文本以及目标编辑区域的掩码，利用文生图大模型进行图本文档来自技高网...

【技术保护点】

1.一种基于文生图大模型的图像细粒度编辑方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于文生图大模型的图像细粒度编辑方法，其特征在于，所述基于文生图输入数据获取源图像的潜空间噪声图，包括：

3.如权利要求1所述的基于文生图大模型的图像细粒度编辑方法，其特征在于，所述交叉注意力图包括与描述编辑图像的编辑词元对应的交叉注意力图，和与描述源图像的负向词元的对应的交叉注意力图。

4.如权利要求3所述的基于文生图大模型的图像细粒度编辑方法，其特征在于，所述基于掩码的注意力调整约束包括使用与描述编辑图像的编辑词元对应的交叉注意力图计算出的正向约束，和，使用与描述源图像的负向词元对应的交叉注意力图计算出的负向约束，所述正向约束和所述负向约束的加权和为总约束。

5.如权利要求4所述的基于文生图大模型的图像细粒度编辑方法，其特征在于，对所述潜空间噪声图进行去噪处理包括重建分支和编辑分支；其中，

6.如权利要求5所述的基于文生图大模型的图像细粒度编辑方法，其特征在于，所述基于掩码的注意力调整约束包括词元比例约束和空间比例约束；其中，

7.如权利要求6所述的基于文生图大模型的图像细粒度编辑方法，其特征在于，在利用所述梯度更新所述潜空间噪声图的过程中，

8.如权利要求7所述的基于文生图大模型的图像细粒度编辑方法，其特征在于，对于当前时间步，循环进行步骤S121至步骤S124，直至达到最大循环步数或达到约束阈值。

9.一种基于文生图大模型的图像细粒度编辑系统，基于如权利要求1-8中任一所述的图像细粒度编辑方法进行图像编辑，包括：

10.一种电子设备，其特征在于，所述电子设备包括：

...

【技术特征摘要】

1.一种基于文生图大模型的图像细粒度编辑方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于文生图大模型的图像细粒度编辑方法，其特征在于，所述基于文生图输入数据获取源图像的潜空间噪声图，包括：

5.如权利要求4所述的基于文生图大...

【专利技术属性】
技术研发人员：毛琪，陈澜，方镇，
申请(专利权)人：中国传媒大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人