一种基于多模态检索与轮廓引导的图像生成方法技术

技术编号:38593920 阅读:15 留言:0更新日期:2023-08-26 23:31
本发明专利技术提出了一种基于多模态检索与轮廓引导的图像生成方法,步骤如下所述:S1:图文多模态检索生成原始图像:输入正向提示文本Prompt,对其进行分词和向量化处理,输出符合相似度阈值的图库中图像作为原始图像;S2:文字检测;S3:图像修复,去除图像中生成效果不好的元素;S4:边缘检测;S5:生成引导文本,S6:图像条件生成:设置支持外部输入条件的隐式扩散模型;输入S4生成的轮廓图作为外部条件,利用S5生成的引导文本在扩散模型中有条件的生成最终图像并输出,本发明专利技术有较好的通用性,通过检测已有图像的布局结构来引导图像生成,有效提升了图像生成效果。提升了图像生成效果。提升了图像生成效果。

【技术实现步骤摘要】
一种基于多模态检索与轮廓引导的图像生成方法


[0001]本专利技术涉及图像识别
,特别涉及一种基于多模态检索与轮廓引导的图像生成方法。

技术介绍

[0002]现有技术中,Latent Diffusion Models(潜在扩散模型,LDM)通过在一个高维表示空间中迭代原始噪声数据来生成图像,然后将表示结果解码为复杂精细的图像,将扩散模型(Diffusion)的计算复杂度显著降低,使得以文字生成图片能够在较低算力的设备上以较短时间生成高清图片,大大降低了模型落地的门槛,也带来了以文字生成图片领域的火热。而Stable Diffusion基于Latent Diffusion Models做了改进,增添了更多的训练数据并使用更先进的文本编码器和更大的生成尺寸(512
×
512和768
×
768),使其专门用于以文字生成图片任务。目前效果较好的潜在扩散模型(LDM)虽然在FID和Precision andRecall指标上普遍超越了GANs(生成对抗模型)和LSGM(基于潜在空间的生成模型),但是目前的扩散模型若直接根据文本引导生成图像(Text to Image),还存在以下问题:(1)作为引导图像生成的Prompt(正向提示文本),其包含关键词的质量会改变文本编码的结果,从而显著影响图像生成的质量,此方法存在一定的随机性和不可控性;(2)由于训练数据集包含的场景及语义有限,在一定的迭代次数下,生成图片结果在复杂场景上的效果显著低于简单场景;(3)在一些特殊场景上,例如人体人脸及文字生成,生成图片往往效果欠佳,且具有一定的随机性和不可控性。

技术实现思路

[0003]为了解决现有技术中图像生成存在一定的随机性和不可控性的问题,提出了一种基于多模态检索与轮廓引导的图像生成方法,减少图像生成的随机性和不可控性,从而提升图像的生成效果。
[0004]具体方案如下所述:一种基于多模态检索与轮廓引导的图像生成方法,S1:图文多模态检索生成原始图像:输入正向提示文本Prompt,对其进行分词和向量化处理,计算与图库中图像的相似度,并输出符合相似度阈值的图库中图像作为原始图像;S2:文字检测:输入S1生成的原始图像,从所述原始图像的集合中选取图像,先通过文字检测,获取所述图像中文本的位置,生成掩码Mask图像;S3:图像修复:输入S2生成的掩码Mask图像,若检测出所述掩码Mask图像中有文字,使用图像修复功能抹除文字后输出作为修复图像;若没有文字则直接输出所述掩码Mask图像作为修复图像;S4:生成轮廓条件:输入S3生成的修复图像,对其进行边缘检测,获取布局轮廓并
生成轮廓图,作为图像生成的引导及约束条件;S5:生成引导文本:输入S1所述的正向提示文本Prompt检测图像的不同生成场景,并针对不同场景设定固定的正向关键词Prompt和负向关键词Negative Prompt作为引导文本;S6:图像轮廓引导:设置支持外部输入条件的隐式扩散模型;输入S5生成的引导文本,以S4生成的轮廓图作为外部条件,在隐式扩散模型中进行有条件的轮廓引导,生成最终图像并输出。
[0005]优选地,S1中所述向量化处理的方法是:分别利用文本编码器和图像编码器对文本和图像进行编码,计算文本向量xi和图像向量yi之间的夹角余弦相似度cos(θ):(1)
[0006]如果夹角余弦相似度超过设定阈值,则该图像满足相似度条件,将所有满足相似度条件的图像编为一个集合,从这个集合中随机选择一张图像作为原始图像。
[0007]优选地,S3中图像修复的方法为:使用OCR检测图像中的文字并标注文字位置,生成带标注文字的Mask图像,再使用扩散模型中的Stable Diffusion进行图像修复抹除文字,使其与图片背景融为一体。
[0008]优选地,所述扩散模型进行图像修复抹除文字的方法为,在扩散模型中将正向提示文本Prompt置空,负向提示文本Negative Prompt改为“文字,海报文字,涂抹文字”,提高CFG来提升文本影响的强度,从而文本编码得到的特征会引导生成过程只留下图像背景而去除文字。
[0009]优选地,S4所述边缘检测的方法为:基于原始图像所处的不同场景设置边缘检测算法,获取图像主体轮廓,生成只有灰度信息的掩码Mask图像作为轮廓图。
[0010]优选地,S6中设置支持外部输入条件的隐式扩散模型的损失函数L
LDM
为:(2)
[0011]其中,表示高斯采样过程;表示时序去噪自编码过程;表示用于外部条件的编码器,表示将外部条件y映射为中间层表示。
[0012]优选地,S6中在隐式扩散模型中进行有条件的轮廓引导的方法为:S61:将输入的文本和图像通过编码器编码成特征,且所述编码器使文本特征和图像特征表征对齐;S62:将S61中被编码的特征进行Concat连接,合并为一个特征并对其添加随机噪声使每次生成的图像不同;如果只有文本特征则不需要Concat连接;S63:将S63中添加随机噪声后的特征送入特征预测器UNet进行降噪扩散并迭代,在隐式空间中生成更接近真实图像的特征;所述扩散模型降噪扩散过程为:(3)
[0013]其中,表示高斯采样过程;表示其引入了隐式编码器,;t=1

T是时序去噪自编码过程,其根据输入去预测对应去噪后的结果,其中
是输入x的加入噪音后的结果;S64:通过变分自编码器VAE将隐式空间中的特征转换为像素空间中的图像并输出。
[0014]优选地,在S61中,文本和图像通过编码器编码成特征的方法为:(4)
[0015]其中,表示引入隐式编码器,表示将转换为,从而让文字或图像特征在隐式空间中表征;当图像作为所述扩散模型的输入时,扩散模型会首先将输入的图像通过图像编码器编码到隐式特征空间,同时将输入文本通过文本编码器编码到同一隐式特征空间。
[0016]优选地,在S63中,所述Unet是一种前后对称式结构,前半部分包含8个主编码块,后半部分包含8个主解码块;每个块中包含卷积神经网络ResNet和图像注意力网络ViT;所述卷积神经网络ResNet用于全局特征的编解码;所述图像注意力网络ViT包含交叉注意力和自注意力机制,用于局部特征的编解码。
[0017]优选地,在S63中,所述特征预测器UNet进行降噪扩散的方法为:使用一个由4个4核和2
×
2步长卷积层组成的微型网络作为编码器,其形状为16
×
32
×
64
×
128,将图像空间条件编码为特征映射:(5)
[0018]为转换后的特征图;该网络会将512
×
512的图像条件转换为64
×
64的特征图。
[0019]优选地,在S63中,所述迭代过程中利用内嵌于Unet的数值变量CFG控制文本提示对扩散过程的调节程度来控制文本特征影响的程度。
[0020]本专利技术提出了一种基于多模态检索与轮廓引导的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态检索与轮廓引导的图像生成方法,其特征在于,S1:图文多模态检索生成原始图像:输入正向提示文本Prompt,对其进行分词和向量化处理,计算与图库中图像的相似度,并输出符合相似度阈值的图库中图像作为原始图像;S2:文字检测:输入S1生成的原始图像,从所述原始图像的集合中选取图像,先通过文字检测,获取所述图像中文本的位置,生成掩码Mask图像;S3:图像修复:输入S2生成的掩码Mask图像,若检测出所述掩码Mask图像中有文字,使用图像修复功能抹除文字后输出作为修复图像;若没有文字则直接输出所述掩码Mask图像作为修复图像;S4:生成轮廓条件:输入S3生成的修复图像,对其进行边缘检测,获取布局轮廓并生成轮廓图,作为图像生成的引导及约束条件;S5:生成引导文本:输入S1所述的正向提示文本Prompt检测图像的不同生成场景,并针对不同场景设定固定的正向关键词Prompt和负向关键词Negative Prompt作为引导文本;S6:图像轮廓引导:设置支持外部输入条件的隐式扩散模型;输入S5生成的引导文本,以S4生成的轮廓图作为外部条件,在隐式扩散模型中进行有条件的轮廓引导,生成最终图像并输出。2.由权利要求1所述的一种基于多模态检索与轮廓引导的图像生成方法,其特征在于,S1中所述向量化处理的方法是:分别利用文本编码器和图像编码器对文本和图像进行编码,计算文本向量xi和图像向量yi之间的夹角余弦相似度cos(θ):(1)如果夹角余弦相似度超过设定阈值,则该图像满足相似度条件,将所有满足相似度条件的图像编为一个集合,从这个集合中随机选择一张图像作为原始图像。3. 由权利要求1所述的一种基于多模态检索与轮廓引导的图像生成方法,其特征在于,S3中图像修复的方法为:使用OCR检测图像中的文字并标注文字位置,生成带标注文字的Mask图像,再使用扩散模型中的Stable Diffusion进行图像修复抹除文字,使其与图片背景融为一体。4.由权利要求3所述的一种基于多模态检索与轮廓引导的图像生成方法,其特征在于,所述扩散模型进行图像修复抹除文字的方法为,在扩散模型中将正向提示文本Prompt置空,负向提示文本Negative Prompt改为“文字,海报文字,涂抹文字”,提高CFG来提升文本影响的强度,从而文本编码得到的特征会引导生成过程只留下图像背景而去除文字。5.由权利要求1所述的一种基于多模态检索与轮廓引导的图像生成方法,其特征在于,S4所述边缘检测的方法为:基于原始图像所处的不同场景设置边缘检测算法,获取图像主体轮廓,生成只有灰度信息的掩码Mask图像作为轮廓图。6.由权利要求1所述的一种基于多模态检索与轮廓引导的图像生成方法,其特征在于,S6中设置支持外部输入条件的隐式扩散模型的损失函数L
LDM

【专利技术属性】
技术研发人员:李昊昱王洪俊乔春庚
申请(专利权)人:拓尔思信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1