【技术实现步骤摘要】
一种主体导向文字生成图像的解耦高效微调方法及产品
[0001]本申请实施例涉及人工智能
,具体而言,涉及一种主体导向文字生成图像的解耦高效微调方法及产品。
技术介绍
[0002]得益于文
‑
图生成(即文字生成图像)的大规模预训练扩散模型的成功,“主体导向的文
‑
图生成”受到了广泛的关注。“主体导向的文
‑
图生成”指的是在保证主体不变的情况下,根据文本的内容生成相应的图。该问题的关键在于要保证生成的图的主体一致的同时,还要符合文本的语义。
[0003]现有的方法通常通过将主体的数张图片映射到一个共有表征上,然而,该共有表征包含了图片中和主体无关的信息,一方面,这些与主体无关的信息会导致文本的控制能力降低,让生成的图像不符合文本语义;另一方面,包含和主体无关的信息也会导致共有的表征所包含的主体信息减少,让生成的图像与主体不一致。因此,如何维持主体一致的情况下,符合文本的语义,成为本领域技术人员当前亟待解决的问题。
技术实现思路
[0004]本申请 ...
【技术保护点】
【技术特征摘要】
1.一种主体导向文字生成图像的解耦高效微调方法,其特征在于,应用于文图生成网络,所述方法包括:获取目标输入图像和控制语义,所述目标输入图像为输入图像集中的任意一张输入图像,所述目标输入图像至少包括主体图像,所述控制语义至少包括所述主体图像对应的主体信息;对所述目标输入图像进行加噪处理,得到带噪隐向量;基于所述控制语义以及所述目标输入图像,获取图像表征,所述图像表征至少包括对应于所述目标输入图像的图像特有表征以及对应于所述控制语义的主体共享表征;基于所述带噪隐向量和所述图像表征,获取第一损失;基于所述第一损失,对所述文图生成网络进行调整,得到目标文图生成网络。2.根据权利要求1所述的主体导向文字生成图像的解耦高效微调方法,其特征在于,基于所述控制语义以及所述目标输入图像,获取图像表征,包括:将所述目标输入图像输入表征提取子网络的第一分支,获取所述图像特有表征,所述图像特有表征用于表征所述目标输入图像中的主体无关信息;将所述控制语义输入所述表征提取子网络的第二分支,获取所述主体共享表征,所述主体共享表征用于表征所述输入图像集中的所有输入图像的主体无关信息以及主体相关信息;将所述图像特有表征以及所述主体共享表征组合为所述图像表征。3.根据权利要求1所述的主体导向文字生成图像的解耦高效微调方法,其特征在于,基于所述带噪隐向量和所述图像表征,获取第一损失,包括:将所述带噪隐向量以及所述图像表征输入去噪子网络,以基于所述图像表征对所述带噪隐向量中的主体相关信息和主体无关信息进行解耦,获取第一噪声预测结果,所述去噪子网络为插入了低秩参数的U型网络;获取所述第一噪声预测结果对噪声真值的损失,作为所述第一损失,所述噪声真值为所述带噪隐向量中添加的噪声。4.根据权利要求3所述的主体导向文字生成图像的解耦高效微调方法,其特征在于,在获取图像表征之后,所述方法还包括:将所述带噪隐向量和所述主体共享表征输入去噪子网络,以基于所述主体共享表征捕捉所述带噪隐向量中的主体相关信息,获取第二噪声预测结果;获取所述第二噪声预测结果对噪声真值的损失,作为第二损失,所述噪声真值为所述带噪隐向量中添加的噪声;基于所述第一损失以及所述第二损失,对所述文图生成网络进行调整,得到所述目标文图生成网络。5.根据权利要求4所述的主体导向文字生成图像的解耦高效微调方法,其特征在于,在获取图像表征之后,所述方法还包括:基于所述主体共享表征以及所述图像特有表征,获取第三损失,所述第三损失用于表征所述主体共享表征与所述图像特有表征之间的差异程度;基于所述第一损失、所述第二损失以及所述第三损失,获取总体损失;基于所述第一损失,对所述文图生成网络进行调整,得到目标文图生成网络,包括:
基于所述总体损失,对所述文图生成网络进行调整,得到所述目标文图生成网络;所述总体损失按照如下公式获取:L=L
p
(∈
θ
(z
t
,c
c
,c
s
),∈)+λL
p
(∈
θ
(z
t
,c
c
),∈)+λ1L
disen
(c
c
,c
s
);其中,L为所述总体损失;L
p
(∈
θ
(z
t
,c
c
,c
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。