一种文生图方法及装置、电子设备、存储介质制造方法及图纸

技术编号：44967352 阅读：24 留言：0更新日期：2025-04-12 01:39

本发明专利技术实施例提供了一种文生图方法及装置、电子设备、存储介质，所述方法包括：获取用于进行文生图过程中图像去噪处理的初始U型神经网络模型，所述初始U型神经网络模型包括多组注意力结构；将具有线性复杂度的目标模型结构替换所述多组注意力结构；基于所述初始U型神经网络模型对替换结构后的U型神经网络模型进行模型蒸馏，得到目标U型神经网络模型；依照所述目标U型神经网络模型进行文生图的图像去噪，得到目标图像。通过本发明专利技术实施例中，采用具有线性复杂度的目标模型结构替换多组注意力结构，将注意力模块的计算时间复杂度降为线性复杂度，得到目标U型神经网络模型，从而，文生图可以实现生成大于2k分辨率的图像。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像生成，特别是涉及一种文生图方法及装置、电子设备、存储介质。

技术介绍

1、文生图任务是一种基于自然语言文本生成图片的任务，目标是让模型根据输入的描述生成与之相符的图像。该任务需要模型不仅能识别文本中的具体物体、场景，还要把握风格、情感等抽象特征，并将文本信息转化为潜在的视觉特征，生成相应的图像。文生图模型可以帮助设计师快速生成草图、设计概念，用于游戏和影视制作、广告和营销、教育和科研等领域，具有广阔的应用前景。

2、当前的文生图过程通常采用包含多组注意力结构的unet模型实现图像去噪，注意力模块的计算时间复杂度导致在有限的显存基础上无法生成大于2k分辨率的图像。

技术实现思路

1、鉴于上述问题，提出了以便提供克服上述问题或者至少部分地解决上述问题的一种文生图方法及装置、电子设备、存储介质，包括：

2、一种文生图方法，所述方法包括：

3、获取用于进行文生图过程中图像去噪处理的初始u型神经网络模型，所述初始u型神经网络模型包括多组注意力结构；

4、本文档来自技高网...

【技术保护点】

1.一种文生图方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述初始U型神经网络模型对替换结构后的U型神经网络模型进行模型蒸馏，包括：

3.根据权利要求2所述的方法，其特征在于，所述以所述第一噪声估计数据为所述目标U型神经网络模型的图像去噪的期望值，基于所述第一噪声估计数据和所述第二噪声估计数据对所述替换结构后的U型神经网络模型进行模型参数调整，得到目标U型神经网络模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述损失函数为第二噪声估计数据与第一噪声估计数据之间差值的L2范数的平方。</p>

5.根据...

【技术特征摘要】

1.一种文生图方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述初始u型神经网络模型对替换结构后的u型神经网络模型进行模型蒸馏，包括：

3.根据权利要求2所述的方法，其特征在于，所述以所述第一噪声估计数据为所述目标u型神经网络模型的图像去噪的期望值，基于所述第一噪声估计数据和所述第二噪声估计数据对所述替换结构后的u型神经网络模型进行模型参数调整，得到目标u型神经网络模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述损失函数为第二噪声估计数据与第一噪声估计数据之间差值的l2范数的平方。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述依照所述目标u型神经网络模型进...

【专利技术属性】
技术研发人员：臧祥浩，方瀚，张华宇，班超，孙皓，
申请(专利权)人：中电信人工智能科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人