基于文生图扩散模型的图像生成内容抑制方法及系统技术方案

技术编号：39817125 阅读：12 留言：0更新日期：2023-12-22 19:36

本公开提供了基于文生图扩散模型的图像生成内容抑制方法及系统，涉及图像生成技术领域，包括将文本输入目标提示词映射为文本嵌入；将文本嵌入分为期望被抑制的嵌入以及鼓励保留的嵌入两个部分，构造目标文本嵌入矩阵，对所述目标文本嵌入矩阵进行奇异值分解，提取被抑制的语义信息；为每个奇异值引入软加权正则化，还原目标文本嵌入矩阵；将目标文本嵌入矩阵输入至扩散模型中，通过交叉注意力输出对应的期望被抑制特征注意图以及鼓励保留特征注意图，提出两个注意力损失评估注意力图；引入对齐损失和多样性损失，抑制期望被抑制的主体的生成，最后生成移除期望被抑制实体后的图像

全部详细技术资料下载

【技术实现步骤摘要】
基于文生图扩散模型的图像生成内容抑制方法及系统

[0001]本公开涉及图像生成
，具体涉及基于文生图扩散模型的图像生成内容抑制方法及系统
。

技术介绍

[0002]本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息，不必然构成在先技术
。
[0003]扩散模型近期取得了显著的成果
。
但是，尽管目前其在图像生成领域取得了巨大的成功，它仍然可能无法抑制输入提示词中的特定主体的生成；
Stable Diffusion(SD)
作为一个强大的生成模型，在许多图像生成的实际应用，特别是在特定的背景下，需要在具备显著的生成能力的同时可以抑制特定的语义信息，以及从给定的真实图像中去除特定的上下文信息
。
然而，目前模型存在一个关键的语义错误表达问题，即
SD
模型可能不能抑制输入提示词中的特定主体的生成
。
例如，当输入提示词为“a man without glasses”时，图像中仍然会生成“glasses”这个实体，如图
1。
另一个例子，给定一个真实图像，如图1，用户期望在提示词为“Yoshua Bengio without beard”的条件下编辑图像
。
然而，当前基于
SD
的图像编辑方法不能移除
beard
信息，如图
1。
特定主体的移除是比替换更具有挑战性的，因为它需要在图像中特定主体被移除的区域填充合理的内容
。S...

【技术保护点】

【技术特征摘要】
1.
基于文生图扩散模型的图像生成内容抑制方法，其特征在于，包括：获取给定的待生成图像的文本输入目标提示词，并映射为文本嵌入；将所述文本嵌入分为期望被抑制的嵌入以及鼓励保留的嵌入两个部分，构造目标文本嵌入矩阵，对目标文本嵌入矩阵中期望被抑制的嵌入和
[EOT]
组成的矩阵部分进行奇异值分解，提取被抑制的语义信息；为每个奇异值引入软加权正则化，还原目标文本嵌入矩阵；将所述目标文本嵌入矩阵输入至扩散模型中，通过交叉注意力输出对应的期望被抑制特征注意图以及鼓励保留特征注意图，提出两个注意力损失评估注意力图；引入对齐损失，在一定的时间步内对齐鼓励保留特征的注意力图；提出多样性损失，抑制期望被抑制的主体的生成，最后生成移除期望被抑制实体后的图像
。2.
如权利要求1所述的基于文生图扩散模型的图像生成内容抑制方法，其特征在于，所述获取待生成图像的文本输入目标提示词，通过文本编码器将文本输入目标提示词映射为文本嵌入，通过在文本输入目标提示词前面添加一个文本开始
SOT
符号，在末尾嵌入一定数量的文本结束
EOT
嵌入符号，定义文本嵌入
。3.
如权利要求1所述的基于文生图扩散模型的图像生成内容抑制方法，其特征在于，构造目标文本嵌入矩阵，包括：文本编码器的文本嵌入为将分成两部分文本嵌入
:c
SE
和
c
PE
；
c
SE
是期望被抑制的嵌入
,c
PE
是鼓励保留的嵌入，因此有：构造目标文本嵌入矩阵为目标文本嵌入矩阵包含期望被抑制的信息
。4.
如权利要求1所述的基于文生图扩散模型的图像生成内容抑制方法，其特征在于，对所述目标文本嵌入矩阵进行奇异值分解，当进行奇异值分解时
,
得到
χ
为指导从嵌入中提取需要被抑制的语义信息，包括：
χ
＝
U
Σ
V
T
其中奇异值
n0＝
min(M,N
‑
|p|
‑
1)
，
U
为左奇异向量矩阵；
Σ
为奇异值矩阵；
V
为右奇异向量矩阵
。5.
如权利要求1所述的基于文生图扩散模型的图像生成内容抑制方法，其特征在于，为每个奇异值引入软加权正则化，还原目标文本嵌入矩阵，...

【专利技术属性】
技术研发人员：李森茂，王亚星，程明明，杨健，
申请(专利权)人：南开大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人