一种基于文图生成模型的语言跟踪图像编辑方法技术

技术编号：41124870 阅读：7 留言：0更新日期：2024-04-30 17:52

本发明专利技术公开了一种基于文图生成模型的语言跟踪图像编辑方法，属于图像处理技术领域，包括：获取源文本提示、目标文本提示和编辑词；得到所有与编辑词有关系的单词并形成词汇对集合；将源文本表征信息、目标文本表征信息和噪声图像输入到扩散模型中重复执行：更新目标编辑图像生成过程中输入的噪声图像；提取源图像在生成或重建过程中的自注意力图并替换目标编辑图像在生成过程中的自注意力图；阈值化合并得到掩膜；利用掩膜更新目标编辑图像的噪声图像；直到执行完t个步数为止，输出噪声图像；对噪声图像进行解码得到源图像和目标编辑图像。所述基于文图生成模型的语言跟踪图像编辑方法解决了现有的图像编辑方法编辑结果不理想的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理，特别涉及一种基于文图生成模型的语言跟踪图像编辑方法。

技术介绍

1、文本到图像合成已成为计算机视觉和自然语言处理领域交叉的革命性领域，它能够从文本描述中生成视觉上引人入胜的图像。先锋模型如stable diffusion、dalle-2、imagen以及更近期的dalle-3，已经展示出生成艺术上连贯图像的卓越能力，吸引了学术界和工业界的广泛关注和研究兴趣。近年来，在使用生成对抗网络（generative adversarialnetworks, gans）的文本驱动图像处理领域取得了重大进展。然而，尽管gans在处理领域内数据方面取得了成功，它们在处理大型和多样化的数据时也面临挑战。除了gans，基于扩散的模型如dall-e2,imagen和stable diffusion在推进文本到图像合成领域的发展上也发挥了显著作用，它们在合成高保真度图像方面表现出卓越的性能。然而，这些模型并未提供生成图像的文本引导图像编辑能力。文本引导图像编辑是一项关键任务，涉及根据文本表达的要求对输入图像进行修改。在现有研究中，文本引导图像编辑方法可归纳为两类：无需训练和基于训练的方法。无需训练的方法被设计用于操作去噪过程中的图像生成。例如，sdedit创新性地将噪声添加到选定的引导图像上，作为初始噪声，取得了显着的结果。p2p更改交叉注意力图以控制图像的空间布局关系。基于训练的方法通过修改模型以结合特定领域的见解或集成补充的指导数据来构造新的理想图像。特别是，controlnet和t2i-adapter允许用户通过更改额外的

2、然而，已有的方法在多个实体替换等复杂编辑任务时可能会失败，特别是当源图像中包含多余信息时，可能导致编辑结果不理想。失败的原因包括在图像编辑过程中为了保持源图像的结构特征过度地引入源图像的特征信息，以及错误的交叉注意力对齐。

技术实现思路

1、为了克服现有技术存在的缺陷，本专利技术提供一种基于文图生成模型的语言跟踪图像编辑方法，以解决上述的问题。

2、本专利技术解决其技术问题所采用的技术方案是：一种基于文图生成模型的语言跟踪图像编辑方法，包括以下步骤：

3、s1：获取源文本提示、目标文本提示和编辑词；

4、s2：分析目标文本提示的依赖关系，得到所有与编辑词有关系的单词并形成词汇对集合s；

5、s3：获取噪声图像；当有源图像输入时，噪声图像利用源图像通过ddim反演得到；当没有源图像输入时，噪声图像通过随机数进行高斯采样得到；

6、将源文本提示输入到文本编码器中得到源文本表征信息，将所述目标文本提示输入到文本编码器中得到目标文本表征信息；

7、然后将源文本表征信息、目标文本表征信息和噪声图像输入到扩散模型中，并在扩散模型内重复执行以下步骤：

8、s30：根据词汇对集合s，提取目标编辑图像生成过程中与词汇对集合s中单词对应的交叉注意力图，计算交叉注意力图损失值，并更新目标编辑图像生成过程中输入的噪声图像；

9、s31：提取源图像在生成或重建过程中的自注意力图标记为源图像自注意力图，其中生成过程为利用源文本提示指导生成源图像的过程，重建过程为利用ddim反演得到的噪声图像再通过噪声图像重建得到源图像的过程；

10、s32：利用源图像自注意力图替换目标编辑图像在生成过程中的自注意力图；

11、s33：根据所述词汇对集合s，将目标编辑图像生成过程中与词汇对集合s中单词对应的交叉注意力图阈值化合并成掩膜；

12、s34：利用掩膜更新目标编辑图像的噪声图像；

13、重复执行步骤s30至步骤s34，直到执行完t个步数为止，t为预设定的步数，然后输出源图像的噪声图像和目标编辑图像的噪声图像；

14、s4：对源图像的噪声图像和目标编辑图像的噪声图像通过vae图像解码器进行解码得到源图像和目标编辑图像，并输出。

15、具体地，所述步骤s2包括：提取与编辑词有关系的单词，其中单词包括修饰词和被修饰词，对每个单词生成对应的交叉注意力图，对这些交叉注意力图两两组合得到多个子交叉注意力图对，在这些子交叉注意力图对中取出既有修饰词又有被修饰词的子交叉注意力图对标记为交叉注意力图对。

16、值得说明的是，所述步骤s30的过程包括：将目标编辑图像在生成过程中正集包含的交叉注意力图对，标注为第一交叉注意力组；将目标编辑文本中不在词汇对集合s内的单词对应的所有交叉注意力图，标注为第二交叉注意力组；

17、根据交叉注意力图正集损失函数计算第一交叉注意力组内交叉注意力图对的kl散度，并相加得到交叉注意力图正损失函数值：

18、；

19、其中s为词汇对集合，k为词汇对集合s的词汇对的个数，为词汇对中被修饰词m对应的交叉注意力图，为词汇对中修饰词n对应的交叉注意力图，为被修饰词m对应的交叉注意力图和修饰词n对应的交叉注意力图组成的交叉注意力图对；

20、计算第一交叉注意力组与第二交叉注意力组内所有交叉注意力图的kl散度，相加得到交叉注意力图负损失函数值：

21、；

22、其中为词汇对中被修饰词m对应的交叉注意力图，为词汇对中修饰词n对应的交叉注意力图，为第二交叉注意力组中的交叉注意力图，u为第二交叉注意力组；

23、计算交叉注意力图损失值：；

24、根据交叉注意力图损失值计算当前步数t的梯度，更新当前噪声图像：，z为当前噪声图像为，为更新率。

25、可选的，在所述步骤s32中，所述源图像的自注意力图为源图像在生成或重建过程中对应扩散模型自注意力层第4到第14层的自注意力图，以替换目标编辑图像在生成过程中对应扩散模型自注意力层第4到第14层的自注意力图。

26、优选的，在所述步骤s33中，对词汇对集合s所有单词对应的目标编辑图像在生成过程中的交叉注意力图进行阈值化转化为二值图像，其中阈值化的阈值为0.4，然后将所有的二值图像取并，得到掩膜，并将掩膜标记为mask。

27、值得说明的是，在所述步骤s34中，利用掩膜更新目标编辑图像的噪声图像的公式为：，其中为当前步下源图像的噪声图像，为当前步下目标编辑图像的噪声图像，为更新后目标编辑图像的噪声图像，为掩膜。

28、优选的，在所述步骤s3中，ddim反演的过程通过反演公式进行：

29、，经过t个步数的反演后得到包含t个噪声图像集合{}；其中，为第t步的扩散率，是一个预设定好的固定值，取值范围为[0.00085,0.012]，为扩散模型，为描述源图像的文本嵌入。

30、具体地，在所述步骤s32中所述的自注意力图是在扩散模型的自注意力层中形成的中间计算值，计算公式为：

31、；

32、；

33、；

34、其中为自注意力层的查询值，为自注意力层的关键值，为扩散模本文档来自技高网...

【技术保护点】

1.一种基于文图生成模型的语言跟踪图像编辑方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于文图生成模型的语言跟踪图像编辑方法，其特征在于：所述步骤S2包括：提取与编辑词有关系的单词，其中单词包括修饰词和被修饰词，对每个单词生成对应的交叉注意力图，对这些交叉注意力图两两组合得到多个子交叉注意力图对，在这些子交叉注意力图对中取出既有修饰词又有被修饰词的子交叉注意力图对标记为交叉注意力图对。

3.根据权利要求2所述的一种基于文图生成模型的语言跟踪图像编辑方法，其特征在于：所述步骤S30的过程包括：将目标编辑图像在生成过程中正集包含的交叉注意力图对，标注为第一交叉注意力组；将目标编辑文本中不在词汇对集合S内的单词对应的所有交叉注意力图，标注为第二交叉注意力组；

4.根据权利要求3所述的一种基于文图生成模型的语言跟踪图像编辑方法，其特征在于：在所述步骤S32中，所述源图像的自注意力图为源图像在生成或重建过程中对应扩散模型自注意力层第4到第14层的自注意力图，以替换目标编辑图像在生成过程中对应扩散模型自注意力层第4到第14层的自注意力图。

5.根据权利要求4所述的一种基于文图生成模型的语言跟踪图像编辑方法，其特征在于：在所述步骤S33中，对词汇对集合S所有单词对应的目标编辑图像在生成过程中的交叉注意力图进行阈值化转化为二值图像，其中阈值化的阈值为0.4，然后将所有的二值图像取并，得到掩膜，并将掩膜标记为Mask。

6.根据权利要求5所述的一种基于文图生成模型的语言跟踪图像编辑方法，其特征在于：在所述步骤S34中，利用掩膜更新目标编辑图像的噪声图像的公式为：，其中为当前步下源图像的噪声图像，为当前步下目标编辑图像的噪声图像，为更新后目标编辑图像的噪声图像，为掩膜。

7.根据权利要求6所述的一种基于文图生成模型的语言跟踪图像编辑方法，其特征在于：在所述步骤S3中，DDIM反演的过程通过反演公式进行：

8.根据权利要求7所述的一种基于文图生成模型的语言跟踪图像编辑方法，其特征在于：在所述步骤S32中所述的自注意力图是在扩散模型的自注意力层中形成的中间计算值，计算公式为：

9.根据权利要求8所述的一种基于文图生成模型的语言跟踪图像编辑方法，其特征在于：在所述步骤S33中，所述的交叉注意力图是在扩散模型的交叉注意力层中形成的中间计算值，计算公式为：

...

【技术特征摘要】

1.一种基于文图生成模型的语言跟踪图像编辑方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于文图生成模型的语言跟踪图像编辑方法，其特征在于：所述步骤s2包括：提取与编辑词有关系的单词，其中单词包括修饰词和被修饰词，对每个单词生成对应的交叉注意力图，对这些交叉注意力图两两组合得到多个子交叉注意力图对，在这些子交叉注意力图对中取出既有修饰词又有被修饰词的子交叉注意力图对标记为交叉注意力图对。

3.根据权利要求2所述的一种基于文图生成模型的语言跟踪图像编辑方法，其特征在于：所述步骤s30的过程包括：将目标编辑图像在生成过程中正集包含的交叉注意力图对，标注为第一交叉注意力组；将目标编辑文本中不在词汇对集合s内的单词对应的所有交叉注意力图，标注为第二交叉注意力组；

4.根据权利要求3所述的一种基于文图生成模型的语言跟踪图像编辑方法，其特征在于：在所述步骤s32中，所述源图像的自注意力图为源图像在生成或重建过程中对应扩散模型自注意力层第4到第14层的自注意力图，以替换目标编辑图像在生成过程中对应扩散模型自注意力层第4到第14层的自注意力图。

5.根据权利要求4所述的一种基...

【专利技术属性】
技术研发人员：刘冰雁，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人