基于轮廓与文本引导的两阶段图像生成方法技术

技术编号：41108616 阅读：1 留言：0更新日期：2024-04-25 14:02

本发明专利技术公开了基于轮廓与文本引导的两阶段图像生成方法。首先基于文本特征与图像特征的相似度，从图库选择一张原始图像。对该原始图像进行边缘检测，生成轮廓图。构建扩散模型，进行两阶段训练，在第一阶段使用文本编码进行网络训练。在第二阶段使用图像编码进行网络训练，从而减少生成图像的不确定性，提高一致性，并且可以加快模型的训练速度。最后使用训练后的网络进行噪声预测，生成图像的隐空间表征，并转化到像素空间中，输出期望的图像。该方法在智能家居中可以有多种应用，为用户提供更直观和个性化的交互体验，以及改善生活质量，有极高的实用价值。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像处理，涉及图像的生成方法，具体涉及基于轮廓与文本引导的两阶段图像生成方法。

技术介绍

1、图像生成技术是指通过计算机算法和模型生成新的图像，除了可以在艺术创作、视觉效果、虚拟现实、产品设计等领域帮助人们提供术价值，在辅助医学诊断方向也具有积极的作用。

2、在智能家居中，图像生成技术可以为用户提供更直观和个性化的交互体验，包括以下几个方面：

3、(1)自定义家居设计和装修：通过描述梦想中的家居设计细节，比如颜色、家具风格、装饰等，甚至是空间布局和灯光效果。图像生成技术利用这些文字描述生成虚拟图像，准确还原用户的想法，帮助用户可视化设计概念，让用户了解到设想的装修风格最终的呈现效果，为实际装修方案的确定提供参考。

4、(2)个性化家庭安全模拟：通过用户提供的描述，图像生成技术可以绘制出家庭平面图，并模拟安全设备的布局图，包括安全摄像头、门窗感应器和智能警报器件等的位置，从而直观展示存在安全隐患或者需要加强安全保障的区域，提高家庭的安全性。

5、(3)虚拟艺术和家庭装饰：用户可以描述他们所需的艺术品类型，比如油画、雕塑、摄影作品，甚至特定艺术风格或主题，图像生成技术基于描述生成各种艺术品和装饰品的图像，使用户可以在虚拟空间中预览装饰效果，帮助用户选择合适的装饰元素，从而打造独特、个性化的家居氛围。还可以生成相关的家居装饰，包括家具样式、颜色搭配和装饰品的摆放位置，向用户展示不同装饰方案的视觉效果，帮助用户更好地决策家居布置，从而打造出理想的居家环境。

6、l

技术实现思路

1、针对现有技术的不足，本专利技术提出了基于轮廓与文本引导的两阶段图像生成方法，将轮廓与文本作为输入，从不同模态对生成图像进行约束，减少生成图像的随机性与不可控性，提高一致性。并利用两阶段的方法，减少隐空间表征大小，加快模型的训练速度。

2、基于轮廓与文本引导的两阶段图像生成方法，具体步骤如下：

3、步骤1、选择原始图像

4、利用预训练的文本编码器与图像编码器分别对输入文本以及图库图像进行编码，计算文本向量和图像向量之间的夹角余弦相似度，选择与文本向量余弦相似度最高的图库图像作为原始图像。

5、步骤2、边缘检测

6、基于原始图像所处的场景设置边缘检测算法，获取图像主体轮廓，生成只有灰度信息的掩码mask图像作为轮廓图。

7、步骤3、文本编码

8、利用预训练的文本编码器对输入文本进行编码，将结果送入映射网络中，输出得到文本向量。

9、步骤4、图像编码

10、利用预训练的clip模型图像编码器对步骤2得到的轮廓图进行编码，将结果送入映射网络中，输出图像向量。

11、步骤5、引导图像生成

12、构建支持外部输入条件的扩散模型latent diffusion，设置总时间步t与截断时间步t，在0～t时间步的训练中采用文本引导，在t～t时间步的训练中采用轮廓引导，具体步骤如下：

13、s5.1、对步骤1选择的原始图像采用vae编码器进行编码，获得隐空间表征。

14、s5.2、对s5.1编码得到的隐空间表征添加随机噪声，设置时间步范围为0～t，与步骤三得到的文本向量送入unet1网络进行训练迭代。

15、s5.3、对s5.1编码得到的隐空间表征进行下采样后添加随机噪声，设置时间步范围为t～t，与步骤四得到的图像向量送入unet2网络进行训练迭代。

16、s5.4、在高斯分布中随机采样，将得到的纯噪声图像与步骤四得到图像向量送入训练后的unet2网络中，获得加噪隐空间表征经过(t-t)次迭代后获得加噪隐空间表征再进行上采样后与步骤三所得的文本向量一同送入训练后的unet1网络中，获得加噪隐空间表征z′t-1，再经过t次迭代后获得隐空间表征z′。

17、s5.5、通过vae解码器将s5.4所得的隐空间表征z′转换到像素空间中，输出最终的生成图像。

18、本专利技术具有以下有益效果：

19、将轮廓引导与文本引导共同作为模型的输入，可以从不同模态对生成图像进行约束，并且筛选后的原始图像可以使得轮廓图引导条件与文本描述相符，减少生成图像的不确定性，提高文本与图像的语义一致性。此外，两阶段的训练方法也可以加快模型的收敛速度。因此本方法在提高生成图像质量的同时，也大大缩短了训练用时。

本文档来自技高网...

【技术保护点】

1.基于轮廓与文本引导的两阶段图像生成方法，其特征在于：具体步骤如下：

2.如权利要求1所述基于轮廓与文本引导的两阶段图像生成方法，其特征在于：利用预训练的CLIP模型或BERT模型的文本编码器与图像编码器，分别对文本与图库图像进行编码。

3.如权利要求1或2所述基于轮廓与文本引导的两阶段图像生成方法，其特征在于：计算文本编码xi与图像编码yi之间的夹角余弦相似度cos(θ)：

4.如权利要求1所述基于轮廓与文本引导的两阶段图像生成方法，其特征在于：使用Mask R-CNN，对步骤1所得的原始图像进行边缘检测，获取图像主体轮廓，生成只有灰度信息的掩码Mask图像作为轮廓图。

5.如权利要求1或4所述基于轮廓与文本引导的两阶段图像生成方法，其特征在于：边缘检测的具体步骤如下：

6.如权利要求1所述基于轮廓与文本引导的两阶段图像生成方法，其特征在于：所述映射网络为全连接层网络，共三层，第一层输入层为512维，第二位隐藏层为1024维，第三维输出层为512维。

7.如权利要求1所述基于轮廓与文本引导的两阶段图像生成

8.如权利要求1或7所述基于轮廓与文本引导的两阶段图像生成方法，其特征在于：设置模型训练的损失函数为：

9.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1、2、4、6或7中任一项所述的方法。

...

【技术特征摘要】

1.基于轮廓与文本引导的两阶段图像生成方法，其特征在于：具体步骤如下：

2.如权利要求1所述基于轮廓与文本引导的两阶段图像生成方法，其特征在于：利用预训练的clip模型或bert模型的文本编码器与图像编码器，分别对文本与图库图像进行编码。

3.如权利要求1或2所述基于轮廓与文本引导的两阶段图像生成方法，其特征在于：计算文本编码xi与图像编码yi之间的夹角余弦相似度cos(θ)：

4.如权利要求1所述基于轮廓与文本引导的两阶段图像生成方法，其特征在于：使用mask r-cnn，对步骤1所得的原始图像进行边缘检测，获取图像主体轮廓，生成只有灰度信息的掩码mask图像作为轮廓图。

5.如权利要求1或4所述基...

【专利技术属性】
技术研发人员：常幸，潘常春，王会荣，于建，李益，汪云龙，黄经州，周后盘，
申请(专利权)人：杭州万维镜像科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人