【技术实现步骤摘要】
本专利技术属于计算机视觉中的图像生成,具体而言,涉及基于扩散模型的无训练布局到图像生成方法。
技术介绍
1、文本到图像的扩散模型,如dall-e 2 、imagen和stable diffusion,表现出了在文本输入条件下合成高质量图像的能力。这些模型由图像文本对组成的大规模数据集上进行训练。这一进步引起了研究界和公众的极大关注,导致了众多图像编辑工具的兴起并将其扩展到各种下游任务,根据用户指令呈现多元化的个性化生成结果,简化了创意设计的过程,提高了专业艺术家和非专业人士的生产力。
2、然而,尽管取得了这些成功,但是在仅依赖文本提示进行空间构图方面仍存在挑战。例如,在场景设计过程中,用户所期望生成的内容必须遵循指定的布局,而这仅依赖文本实现是不够的。最先进的图像生成器也难以正确通过文本传达准确空间构成,诸如“abicycle on top of a boat”之类的与位置相关的描述性短语,生成器在生成图像时,往往不能准确的描述位置关系,并且容易造成图像模糊、图像错乱等错误。
3、为了解决这个问题,人们研究了布局
...【技术保护点】
1.一种基于扩散模型的无训练布局到图像生成方法,其特征在于,所述方法包括如下步骤:步骤一:获取要进行图像生成的布局图像和文本提示词,使用Clip模型编码器将文本提示词编码成文本向量;步骤二:将文本向量、布局图像和随机生成的高斯噪声输入预训练的稳定扩散模型中,提取布局图像中标注框所在区域,在稳定扩散模型的交叉注意力图中采用一个软掩膜,得到基类掩模图,获得交叉注意力函数和交叉注意力图的全部计算结果;步骤三:提取交叉注意力函数与核心词语位置相对应的掩膜,应用边缘提取,使用Sobel算子最大化边缘区域内的交叉注意力图的方差以实现最大化边缘区域;步骤四:提取交叉注意力图,将文本
...【技术特征摘要】
1.一种基于扩散模型的无训练布局到图像生成方法,其特征在于,所述方法包括如下步骤:步骤一:获取要进行图像生成的布局图像和文本提示词,使用clip模型编码器将文本提示词编码成文本向量;步骤二:将文本向量、布局图像和随机生成的高斯噪声输入预训练的稳定扩散模型中,提取布局图像中标注框所在区域,在稳定扩散模型的交叉注意力图中采用一个软掩膜,得到基类掩模图,获得交叉注意力函数和交叉注意力图的全部计算结果;步骤三:提取交叉注意力函数与核心词语位置相对应的掩膜,应用边缘提取,使用sobel算子最大化边缘区域内的交叉注意力图的方差以实现最大化边缘区域;步骤四:提取交叉注意力图,将文本提示词所生成的各交叉注意力图与加权因子进行加权平均计算,获得目标实际交叉注意力图;步骤五:计算目标实际交叉注意力图与实际注意力图之间的均方误差,在每个降噪步骤中修改噪声样本,以使用梯度下降最小化损失,选择布局图像与文本语义最拟合的结果作为最终生成结果。
2.根据权利要求1所述的一种基于扩散模型的无训练布局到图像生成方法,其特征在于:在步骤一之前,还包括:下载得到的开源的文本到图像的基于稳定扩散模型的生成器和预训练的clip模型编码器。
3.根据权利要求2所述的一种基于扩散模型的无训练布局到图像生成方法,其特征在于:步骤一中,给定的布局图像由个边界框组成,给定的文本提示词包含个与边界框相对应的文本短语;其中,第个标注框的位置和大小由所影响,用于描述在边界框中所需对象;将文本提示词使用预训练的clip模型编码器进行编码,得到文本向量;其中,是嵌入维数。
4.根据权利要求3所述的一种基于扩散模型的无训练布局到图像生成方法,其特征在于:步骤二中包括:将文本向量、布局图像和随机生成的高斯噪声输入预训练的稳定扩散模型中,经过unet网络去噪后,第步交叉注...
【专利技术属性】
技术研发人员:林志洁,郑心浩,郑宗昊,周礼洁,王浩麟,潘玥,平升阳,泮宇鑫,邢锦琦,孙以恒,刘畅,刘轩麟,华浩天,赵科竣,应卫东,
申请(专利权)人:浙江科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。