一种基于多模态检索与轮廓引导的图像生成方法技术

技术编号：38593920 阅读：15 留言：0更新日期：2023-08-26 23:31

本发明专利技术提出了一种基于多模态检索与轮廓引导的图像生成方法，步骤如下所述：S1：图文多模态检索生成原始图像：输入正向提示文本Prompt，对其进行分词和向量化处理，输出符合相似度阈值的图库中图像作为原始图像；S2：文字检测；S3：图像修复，去除图像中生成效果不好的元素；S4：边缘检测；S5：生成引导文本，S6：图像条件生成：设置支持外部输入条件的隐式扩散模型；输入S4生成的轮廓图作为外部条件，利用S5生成的引导文本在扩散模型中有条件的生成最终图像并输出，本发明专利技术有较好的通用性，通过检测已有图像的布局结构来引导图像生成，有效提升了图像生成效果。提升了图像生成效果。提升了图像生成效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态检索与轮廓引导的图像生成方法

[0001]本专利技术涉及图像识别
，特别涉及一种基于多模态检索与轮廓引导的图像生成方法。

技术介绍

[0002]现有技术中，Latent Diffusion Models（潜在扩散模型，LDM）通过在一个高维表示空间中迭代原始噪声数据来生成图像，然后将表示结果解码为复杂精细的图像，将扩散模型（Diffusion）的计算复杂度显著降低，使得以文字生成图片能够在较低算力的设备上以较短时间生成高清图片，大大降低了模型落地的门槛，也带来了以文字生成图片领域的火热。而Stable Diffusion基于Latent Diffusion Models做了改进，增添了更多的训练数据并使用更先进的文本编码器和更大的生成尺寸（512
×
512和768
×
768），使其专门用于以文字生成图片任务。目前效果较好的潜在扩散模型（LDM）虽然在FID和Precision andRecall指标上普遍超越了GANs（生成对抗模型）和LSGM（基于潜在空间的生成模型），但是目前的扩散模型若直接根据文本引导生成图像（Text to Image），还存在以下问题：（1）作为引导图像生成的Prompt（正向提示文本），其包含关键词的质量会改变文本编码的结果，从而显著影响图像生成的质量，此方法存在一定的随机性和不可控性；（2）由于训练数据集包含的场景及语义有限，在一定的迭代次数下，生成图片结果在复杂场景上的效果显著低于简单场景；（3）在一些特殊场景上，例如人体人脸及文...

【技术保护点】

【技术特征摘要】
1.一种基于多模态检索与轮廓引导的图像生成方法，其特征在于，S1：图文多模态检索生成原始图像：输入正向提示文本Prompt，对其进行分词和向量化处理，计算与图库中图像的相似度，并输出符合相似度阈值的图库中图像作为原始图像；S2：文字检测：输入S1生成的原始图像，从所述原始图像的集合中选取图像，先通过文字检测，获取所述图像中文本的位置，生成掩码Mask图像；S3：图像修复：输入S2生成的掩码Mask图像，若检测出所述掩码Mask图像中有文字，使用图像修复功能抹除文字后输出作为修复图像；若没有文字则直接输出所述掩码Mask图像作为修复图像；S4：生成轮廓条件：输入S3生成的修复图像，对其进行边缘检测，获取布局轮廓并生成轮廓图，作为图像生成的引导及约束条件；S5：生成引导文本：输入S1所述的正向提示文本Prompt检测图像的不同生成场景，并针对不同场景设定固定的正向关键词Prompt和负向关键词Negative Prompt作为引导文本；S6：图像轮廓引导：设置支持外部输入条件的隐式扩散模型；输入S5生成的引导文本，以S4生成的轮廓图作为外部条件，在隐式扩散模型中进行有条件的轮廓引导，生成最终图像并输出。2.由权利要求1所述的一种基于多模态检索与轮廓引导的图像生成方法，其特征在于，S1中所述向量化处理的方法是：分别利用文本编码器和图像编码器对文本和图像进行编码，计算文本向量xi和图像向量yi之间的夹角余弦相似度cos（θ）：（1）如果夹角余弦相似度超过设定阈值，则该图像满足相似度条件，将所有满足相似度条件的图像编为一个集合，从这个集合中随机选择一张图像作为原始图像。3. 由权利要求1所述的一种基于多模态检索与轮廓引导的图像生成方法，其特征在于，S3中图像修复的方法为：使用OCR检测图像中的文字并标注文字位置，生成带标注文字的Mask图像，再使用扩散模型中的Stable Diffusion进行图像修复抹除文字，使其与图片背景融为一体。4.由权利要求3所述的一种基于多模态检索与轮廓引导的图像生成方法，其特征在于，所述扩散模型进行图像修复抹除文字的方法为，在扩散模型中将正向提示文本Prompt置空，负向提示文本Negative Prompt改为“文字，海报文字，涂抹文字”，提高CFG来提升文本影响的强度，从而文本编码得到的特征会引导生成过程只留下图像背景而去除文字。5.由权利要求1所述的一种基于多模态检索与轮廓引导的图像生成方法，其特征在于，S4所述边缘检测的方法为：基于原始图像所处的不同场景设置边缘检测算法，获取图像主体轮廓，生成只有灰度信息的掩码Mask图像作为轮廓图。6.由权利要求1所述的一种基于多模态检索与轮廓引导的图像生成方法，其特征在于，S6中设置支持外部输入条件的隐式扩散模型的损失函数L
LDM

【专利技术属性】
技术研发人员：李昊昱，王洪俊，乔春庚，
申请(专利权)人：拓尔思信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人