当前位置: 首页 > 专利查询>南开大学专利>正文

基于文生图扩散模型的图像生成内容抑制方法及系统技术方案

技术编号:39817125 阅读:12 留言:0更新日期:2023-12-22 19:36
本公开提供了基于文生图扩散模型的图像生成内容抑制方法及系统,涉及图像生成技术领域,包括将文本输入目标提示词映射为文本嵌入;将文本嵌入分为期望被抑制的嵌入以及鼓励保留的嵌入两个部分,构造目标文本嵌入矩阵,对所述目标文本嵌入矩阵进行奇异值分解,提取被抑制的语义信息;为每个奇异值引入软加权正则化,还原目标文本嵌入矩阵;将目标文本嵌入矩阵输入至扩散模型中,通过交叉注意力输出对应的期望被抑制特征注意图以及鼓励保留特征注意图,提出两个注意力损失评估注意力图;引入对齐损失和多样性损失,抑制期望被抑制的主体的生成,最后生成移除期望被抑制实体后的图像

【技术实现步骤摘要】
基于文生图扩散模型的图像生成内容抑制方法及系统


[0001]本公开涉及图像生成
,具体涉及基于文生图扩散模型的图像生成内容抑制方法及系统


技术介绍

[0002]本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术

[0003]扩散模型近期取得了显著的成果

但是,尽管目前其在图像生成领域取得了巨大的成功,它仍然可能无法抑制输入提示词中的特定主体的生成;
Stable Diffusion(SD)
作为一个强大的生成模型,在许多图像生成的实际应用,特别是在特定的背景下,需要在具备显著的生成能力的同时可以抑制特定的语义信息,以及从给定的真实图像中去除特定的上下文信息

然而,目前模型存在一个关键的语义错误表达问题,即
SD
模型可能不能抑制输入提示词中的特定主体的生成

例如,当输入提示词为“a man without glasses”时,图像中仍然会生成“glasses”这个实体,如图
1。
另一个例子,给定一个真实图像,如图1,用户期望在提示词为“Yoshua Bengio without beard”的条件下编辑图像

然而,当前基于
SD
的图像编辑方法不能移除
beard
信息,如图
1。
特定主体的移除是比替换更具有挑战性的,因为它需要在图像中特定主体被移除的区域填充合理的内容
。SD
模型生成的图像的特定视觉和语义属性是由输入提示词确定的

一种简单的策略是去除目标文本
(
即“glasses”)。
然而,正如图1所示,眼镜仍然存在

这是因为训练集中许多收集到的人类图像包含眼镜,但往往不包含“glasses”标签;目前解决此类问题的方案是直接删除来自文本编码器的目标文本嵌入

然而,这仍然会生成目标主体

通过实验证实,追加在提示词末尾的
End of Text(EOT)
嵌入包含了有意义的

冗余的和重复的语义信息

一些同时进行的研究对
SD
模型进行微调,然而这导致了“灾难性的忽略”。
以一个例子来说,考虑输入提示“a man without glasses”。

SD
模型进行微调以去除“glasses”。
然而,当给出“a man with glasses”时,微调后的
SD
模型通常无法生成“glasses”。
并且设计一个合适的语义约束通常并不容易,而且简单的实现导致意外的副作用,输出图像可能会对非目标提示进行额外的抑制


技术实现思路

[0004]本公开为了解决上述问题,提出了基于文生图扩散模型的图像生成内容抑制方法及系统,构建目标提示词的词嵌入矩阵,并提出正则化目标提示词信息的方法,采用推理时优化进一步抑制目标提示词中的主体生成,决定生成图像的特定视觉属性的文本嵌入

[0005]根据一些实施例,本公开采用如下技术方案:
[0006]基于文生图扩散模型的图像生成内容抑制方法,包括:
[0007]获取给定的待生成图像的文本输入提示词,并映射为文本嵌入;
[0008]将所述文本嵌入分为期望被抑制的嵌入以及鼓励保留的嵌入两个部分,构造目标文本嵌入矩阵,对目标文本嵌入矩阵中期望被抑制的嵌入和
[EOT]组成的矩阵部分进行奇
异值分解,提取被抑制的语义信息;
[0009]为每个奇异值引入软加权正则化,还原目标文本嵌入矩阵;将所述目标文本嵌入矩阵输入至扩散模型中,通过交叉注意力输出对应的期望被抑制特征注意图以及鼓励保留特征注意图,提出两个注意力损失评估注意力图;引入对齐损失,在一定的时间步内对齐鼓励保留特征的注意力图;提出多样性损失,抑制期望被抑制的主体的生成,最后生成移除期望被抑制实体后的图像

[0010]根据一些实施例,本公开采用如下技术方案:
[0011]基于文生图扩散模型的图像生成内容抑制系统,包括:
[0012]数据获取模块,用于获取给定的待生成图像的文本输入目标提示词,并映射为文本嵌入;
[0013]抑制模块,用于将所述文本嵌入分为期望被抑制的嵌入以及鼓励保留的嵌入两个部分,构造目标文本嵌入矩阵,对目标文本嵌入矩阵中期望被抑制的嵌入和
[EOT]组成的矩阵部分进行奇异值分解,提取被抑制的语义信息;
[0014]为每个奇异值引入软加权正则化,还原目标文本嵌入矩阵;将所述目标文本嵌入矩阵输入至扩散模型中,通过交叉注意力输出对应的期望被抑制特征注意图以及鼓励保留特征注意图,提出两个注意力损失评估注意力图;引入对齐损失,在一定的时间步内对齐鼓励保留特征的注意力图;提出多样性损失,抑制期望被抑制的主体的生成,最后生成移除期望被抑制实体后的图像

[0015]根据一些实施例,本公开采用如下技术方案:
[0016]一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现所述的基于文生图扩散模型的图像生成内容抑制方法

[0017]根据一些实施例,本公开采用如下技术方案:
[0018]一种电子设备,包括:处理器

存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现所述的基于文生图扩散模型的图像生成内容抑制方法

[0019]与现有技术相比,本公开的有益效果为:
[0020]本公开在不微调图像生成器的情况下,提出基于文生图扩散模型的图像生成内容抑制方法,并利用软加权正则化和推理时优化两种方法,前者中,构建一个目标提示词的词嵌入矩阵,并提出了一种正则化目标提示词信息的方法,推理时优化旨在进一步抑制目标提示词中的主体生成,并鼓励期望保留的生成,本公开去除目标文本的词嵌入,可以从
[EOT]嵌入中提取相应的目标信息

在不进一步微调
SD
模型的情况下,大大提高了
SD
模型生成预期主体并抑制不需要的主体的能力

通过几个实验定量和定性地评估了本公开的方法,验证了其有效性,实现了编辑真实图像的能力,进一步通过给定真实图像的上下文编辑任务,展示了其通用性

附图说明
[0021]构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示
意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定

[0022]图1为本公开
Stable本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
基于文生图扩散模型的图像生成内容抑制方法,其特征在于,包括:获取给定的待生成图像的文本输入目标提示词,并映射为文本嵌入;将所述文本嵌入分为期望被抑制的嵌入以及鼓励保留的嵌入两个部分,构造目标文本嵌入矩阵,对目标文本嵌入矩阵中期望被抑制的嵌入和
[EOT]
组成的矩阵部分进行奇异值分解,提取被抑制的语义信息;为每个奇异值引入软加权正则化,还原目标文本嵌入矩阵;将所述目标文本嵌入矩阵输入至扩散模型中,通过交叉注意力输出对应的期望被抑制特征注意图以及鼓励保留特征注意图,提出两个注意力损失评估注意力图;引入对齐损失,在一定的时间步内对齐鼓励保留特征的注意力图;提出多样性损失,抑制期望被抑制的主体的生成,最后生成移除期望被抑制实体后的图像
。2.
如权利要求1所述的基于文生图扩散模型的图像生成内容抑制方法,其特征在于,所述获取待生成图像的文本输入目标提示词,通过文本编码器将文本输入目标提示词映射为文本嵌入,通过在文本输入目标提示词前面添加一个文本开始
SOT
符号,在末尾嵌入一定数量的文本结束
EOT
嵌入符号,定义文本嵌入
。3.
如权利要求1所述的基于文生图扩散模型的图像生成内容抑制方法,其特征在于,构造目标文本嵌入矩阵,包括:文本编码器的文本嵌入为将分成两部分文本嵌入
:c
SE

c
PE

c
SE
是期望被抑制的嵌入
,c
PE
是鼓励保留的嵌入,因此有:构造目标文本嵌入矩阵为目标文本嵌入矩阵包含期望被抑制的信息
。4.
如权利要求1所述的基于文生图扩散模型的图像生成内容抑制方法,其特征在于,对所述目标文本嵌入矩阵进行奇异值分解,当进行奇异值分解时
,
得到
χ
为指导从嵌入中提取需要被抑制的语义信息,包括:
χ

U
Σ
V
T
其中奇异值
n0=
min(M,N

|p|

1)

U
为左奇异向量矩阵;
Σ
为奇异值矩阵;
V
为右奇异向量矩阵
。5.
如权利要求1所述的基于文生图扩散模型的图像生成内容抑制方法,其特征在于,为每个奇异值引入软加权正则化,还原目标文本嵌入矩阵,...

【专利技术属性】
技术研发人员:李森茂王亚星程明明杨健
申请(专利权)人:南开大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1